Claude Opus 4.8: нові функції та підвищена продуктивність

Anthropic оголосила про запуск Claude Opus 4.8, вдосконаленої версії своєї флагманської ШІ-моделі, яка демонструє помітні зміни в точності, чесності та функціональності порівняно з попередником.

Про це розповідає ProIT

Claude Opus 4.8 позиціонується як «скромне» оновлення, проте модель стала продуктивнішою у ключових бенчмарках.
Розробники відзначають підвищену чесність у виявленні власних помилок і недостовірних тверджень.
Anthropic анонсувала плани щодо відкритого релізу лінійки Mythos найближчими тижнями.

Поліпшені результати та ключові нововведення

Claude Opus 4.8 прийшла на зміну версії 4.7, яка з’явилася у квітні 2026 року. Нова модель стала швидшою та ефективнішою, а також отримала додаткові функції, зберігши стару ціну — $5 за 1 млн вхідних токенів і $25 за 1 млн вихідних.

Оцінка Claude Opus 4.8 за ключовими тестами. Джерело: Anthropic.

За результатами бенчмарків, Claude Opus 4.8 суттєво перевершує свого попередника та основних конкурентів. Зокрема, у SWE-Bench Pro, який оцінює виправлення помилок у коді, модель отримала 69,2% (проти 64,3% у 4.7 та 58,6% у OpenAI GPT-5.5). У тесті OSWorld Claude Opus 4.8 досягла 83,4%, а у GDPval-AA — 1890 балів, що також перевищує показники попередньої версії.

Однак у Terminal-Bench 2.1, який вимірює ефективність роботи ШІ-агентів у термінальних середовищах, Claude Opus 4.8 ще поступається GPT-5.5. У Humanity’s Last Exam, який складається з 2500 питань із різних наук, модель набрала 49,8% без інструментів і 57,9% з ними, випередивши конкурентів у цьому тесті.

Компанія Linkup відзначила, що Claude Opus 4.8 стала першою моделлю, яка впоралася з усіма кейсами у Super-Agent benchmark, при цьому залишаючись конкурентоспроможною за ціною порівняно з Opus 4.7 і GPT-5.5.

Anthropic наголошує на підвищеній чесності моделі: Opus 4.8 у чотири рази рідше приховує помилки в коді та менш схильна до непідтверджених тверджень.

«Ми протестували модель на наборі тестів із кібербезпеки, деякі з яких ми використали вперше в системній карті. Під час роботи без заходів безпеки Opus 4.8 демонструє дещо вищі можливості, ніж Claude Opus 4.7; із заходами безпеки його показники зіставні. Він і надалі суттєво відстає від Mythos Preview за кіберможливостями», — йдеться у звіті щодо моделі.

У розмовах на чутливі теми Claude Opus 4.8 поводиться так само, як і Opus 4.7, але частіше визнає альтернативні точки зору у політичних дискусіях. Водночас модель менш задоволена своїм станом порівняно з попередницею.

Функціональні оновлення та підготовка до IPO

Серед основних інновацій — Dynamic Workflows у Claude Code. Вона дає змогу моделі розподіляти завдання між субагентами в межах однієї сесії, а результати проходять додаткову перевірку. Ця функція доступна користувачам тарифів Enterprise, Team і Max.

З’явилася і можливість вибору рівня обчислювальних потужностей: від Low до Max (стандартно встановлено High). Це впливає на глибину відповідей та споживання токенів, і функція доступна для всіх тарифних планів.

Режим Fast Mode став дешевшим майже утричі порівняно з попередньою версією, що дозволяє швидше обробляти запити без втрати точності. Також користувачі тепер можуть уточнювати та доповнювати свої запити під час виконання завдань без повторного зчитування всього контексту.

Anthropic повідомила про збільшення лімітів запитів у Claude Code і оголосила про підготовку до запуску лінійки Mythos, який очікується найближчими тижнями. Раніше цей продукт вважався надто небезпечним для широкого доступу.

Запуск Claude Opus 4.8 і анонс Mythos відбулися на тлі активної підготовки Anthropic до IPO. Компанія нещодавно завершила раунд серії H із залученням $65 млрд при оцінці $965 млрд — це більш ніж удвічі перевищує попередню капіталізацію та навіть оцінку OpenAI. Всі кошти планують спрямувати на розширення обчислювальних потужностей і масштабування сервісів.

Конкурентна боротьба Anthropic та OpenAI посилюється, хоча обидві компанії досі не оголосили точних дат виходу на біржу.