OpenAI разработала новую систему оценки искусственного интеллекта GDPval, которая позволяет анализировать, как современные ИИ справляются с задачами, приближенными к повседневной работе специалистов в различных областях. GDPval тестирует эффективность языковых моделей в реальных сценариях, а не только в теоретических или лабораторных условиях.
Об этом сообщает ProIT
Сравнение ведущих ИИ-моделей в 44 профессиях
Исследователи привлекли 44 профессиональных направления — от программирования и юридических услуг до медицинской сферы и государственного управления. В результате тестирования абсолютным лидером оказался Claude Opus 4.1, разработанный компанией Anthropic. Эта модель превзошла даже новейшие версии ChatGPT, а также другие известные решения, такие как Gemini и Grok.
Согласно результатам, Claude Opus 4.1 показал лучшие результаты в восьми из девяти исследуемых сфер, включая государственное управление, медицину и социальные услуги. Его индекс «выигрыша» составил 47,6, тогда как ближайший конкурент ChatGPT-5 high набрал 38,8 баллов. GDPval оценивает, насколько часто ИИ может выполнять рабочие задачи лучше опытного профессионала: речь идет о ответах на обращения клиентов, оптимизации процессов или поиске ошибок в документации.
OpenAI подчеркивает, что публикация подобных сравнений отражает их политику прозрачности и стремление вести честный диалог о возможностях искусственного интеллекта.
Влияние исследования на развитие ИИ-сервисов
Название GDPval намеренно отсылает к экономическому показателю ВВП, что подчеркивает роль ИИ в повышении производительности труда и экономическом росте. Заметим, что во время исследования также было выяснено: большинство пользователей ChatGPT применяют его преимущественно в домашних условиях, а не на работе.
Работа проводилась с участием экономистов Гарвардского университета и Национального бюро экономических исследований США (NBER). Ее результаты могут изменить фокус разработчиков ИИ-сервисов и способствовать созданию инструментов, ориентирующихся на реальные потребности пользователей в профессиональной деятельности.