OpenAI запускает GDPval: Новые горизонты для GPT-5

Компания OpenAI представила новый бенчмарк GDPval, который позволяет оценить, насколько ее искусственный интеллект GPT-5 и другие модели способны выполнять задачи на уровне профессионалов в различных областях. Этот тест является первым шагом к пониманию, насколько близки разработки OpenAI к выполнению экономически ценной работы, которую традиционно выполняют люди — это одна из ключевых целей компании на пути к созданию искусственного общего интеллекта (AGI).

Об этом сообщает ProIT

Особенности теста GDPval и результаты GPT-5

GDPval охватывает девять основных областей, которые составляют значительную долю валового внутреннего продукта США. Среди них — здравоохранение, финансы, производство, государственное управление и другие. В рамках теста оценивались результаты работы искусственного интеллекта в 44 профессиях, от программистов и медсестер до журналистов.

В первой версии теста, GDPval-v0, опытным специалистам предлагали сравнивать отчеты, написанные искусственным интеллектом, с работами других специалистов, выбирая лучший вариант. Например, инвестиционных банкиров просили создать анализ конкурентов в области доставки, а затем сравнивать результаты с ответами ИИ. Показатель «win rate» демонстрировал, как часто ИИ превосходил или не уступал человеку в выполнении задач во всех 44 профессиях.

Сравнение моделей и перспективы развития

Улучшенная версия GPT-5, GPT-5-high, показала результат, когда ее ответ считался лучшим или равнозначным экспертному в 40,6% случаев. Модель Claude Opus 4.1 от Anthropic продемонстрировала еще более высокий показатель — 49%. В то же время, как отмечают в OpenAI, такая высокая оценка Claude частично объясняется склонностью модели создавать привлекательные визуальные материалы, а не только качеством самой работы.

“[Потому что] модель хорошо справляется с некоторыми задачами, люди в этих профессиях могут использовать ее, чтобы делегировать часть работы и сосредоточиться на более ценных задачах”, — отметил главный экономист OpenAI доктор Аарон Чаттерджи.

В компании подчеркивают, что несмотря на прогресс, сегодняшний тест GDPval охватывает лишь ограниченный круг задач, в частности написание исследовательских отчетов, и не отражает все аспекты профессиональной деятельности. OpenAI планирует расширить тестирование, чтобы оно охватывало больше областей и интерактивных рабочих процессов.

Разработчики подчеркивают, что динамика развития искусственного интеллекта впечатляет: для сравнения, GPT-4o, представленный около 15 месяцев назад, получил лишь 13,7% положительных оценок в таких тестах. В настоящее время же GPT-5 демонстрирует почти в три раза лучший результат, и эксперты ожидают продолжения этой тенденции.

В Кремниевой долине существует ряд тестов для оценки прогресса искусственного интеллекта, среди которых AIME 2025 (математические задачи повышенной сложности) и GPQA Diamond (вопросы уровня докторантуры из естественных наук). Однако многие модели уже достигли предела существующих бенчмарков, поэтому исследователи все чаще подчеркивают необходимость новых тестов, которые бы лучше отражали возможности ИИ в реальных рабочих задачах.

GDPval может стать одним из таких инструментов, определяющих место ИИ в различных отраслях экономики. В то же время для окончательного подтверждения преимущества ИИ над людьми OpenAI еще нужно создать более комплексные тесты, которые охватывали бы более широкий спектр профессиональной деятельности.