Claude Opus 4.8: Новая версия ИИ с улучшенной производительностью

Anthropic объявила о запуске Claude Opus 4.8, усовершенствованной версии своей флагманской ИИ-модели, которая демонстрирует заметные изменения в точности, честности и функциональности по сравнению с предшественником.

Об этом сообщает ProIT

Claude Opus 4.8 позиционируется как «скромное» обновление, однако модель стала производительнее в ключевых бенчмарках.
Разработчики отмечают повышенную честность в выявлении собственных ошибок и недостоверных утверждений.
Anthropic анонсировала планы по открытому релизу линейки Mythos в ближайшие недели.

Улучшенные результаты и ключевые нововведения

Claude Opus 4.8 пришла на смену версии 4.7, которая появилась в апреле 2026 года. Новая модель стала быстрее и эффективнее, а также получила дополнительные функции, сохранив старую цену — $5 за 1 млн входных токенов и $25 за 1 млн выходных.

Оценка Claude Opus 4.8 по ключевым тестам. Источник: Anthropic.

По результатам бенчмарков, Claude Opus 4.8 существенно превосходит своего предшественника и основных конкурентов. В частности, в SWE-Bench Pro, который оценивает исправление ошибок в коде, модель получила 69,2% (против 64,3% у 4.7 и 58,6% у OpenAI GPT-5.5). В тесте OSWorld Claude Opus 4.8 достигла 83,4%, а в GDPval-AA — 1890 баллов, что также превышает показатели предыдущей версии.

Однако в Terminal-Bench 2.1, который измеряет эффективность работы ИИ-агентов в терминальных средах, Claude Opus 4.8 все еще уступает GPT-5.5. В Humanity’s Last Exam, который состоит из 2500 вопросов из различных наук, модель набрала 49,8% без инструментов и 57,9% с ними, опередив конкурентов в этом тесте.

Компания Linkup отметила, что Claude Opus 4.8 стала первой моделью, которая справилась со всеми кейсами в Super-Agent benchmark, при этом оставаясь конкурентоспособной по цене по сравнению с Opus 4.7 и GPT-5.5.

Anthropic подчеркивает повышенную честность модели: Opus 4.8 в четыре раза реже скрывает ошибки в коде и менее склонна к неподтвержденным утверждениям.

«Мы протестировали модель на наборе тестов по кибербезопасности, некоторые из которых мы использовали впервые в системной карте. Во время работы без мер безопасности Opus 4.8 демонстрирует несколько более высокие возможности, чем Claude Opus 4.7; с мерами безопасности его показатели сопоставимы. Он по-прежнему существенно отстает от Mythos Preview по кибер-возможностям», — говорится в отчете по модели.

В разговорах на чувствительные темы Claude Opus 4.8 ведет себя так же, как и Opus 4.7, но чаще признает альтернативные точки зрения в политических дискуссиях. В то же время модель менее удовлетворена своим состоянием по сравнению с предшественницей.

Функциональные обновления и подготовка к IPO

Среди основных инноваций — Dynamic Workflows в Claude Code. Она позволяет модели распределять задачи между субагентами в рамках одной сессии, а результаты проходят дополнительную проверку. Эта функция доступна пользователям тарифов Enterprise, Team и Max.

Появилась и возможность выбора уровня вычислительных мощностей: от Low до Max (стандартно установлено High). Это влияет на глубину ответов и потребление токенов, и функция доступна для всех тарифных планов.

Режим Fast Mode стал дешевле почти в три раза по сравнению с предыдущей версией, что позволяет быстрее обрабатывать запросы без потери точности. Также пользователи теперь могут уточнять и дополнять свои запросы во время выполнения задач без повторного считывания всего контекста.

Anthropic сообщила о увеличении лимитов запросов в Claude Code и объявила о подготовке к запуску линейки Mythos, который ожидается в ближайшие недели. Ранее этот продукт считался слишком опасным для широкого доступа.

Запуск Claude Opus 4.8 и анонс Mythos произошли на фоне активной подготовки Anthropic к IPO. Компания недавно завершила раунд серии H с привлечением $65 млрд при оценке $965 млрд — это более чем вдвое превышает предыдущую капитализацию и даже оценку OpenAI. Все средства планируют направить на расширение вычислительных мощностей и масштабирование сервисов.

Конкуренция между Anthropic и OpenAI усиливается, хотя обе компании до сих пор не объявили точных дат выхода на биржу.