OpenAI розробила нову систему оцінки штучного інтелекту GDPval, що дозволяє аналізувати, як сучасні ШІ справляються із завданнями, наближеними до повсякденної роботи фахівців у різних галузях. GDPval тестує ефективність мовних моделей у реальних сценаріях, а не лише у теоретичних чи лабораторних умовах.
Про це розповідає ProIT
Порівняння провідних ШІ-моделей у 44 професіях
Дослідники залучили 44 професійних напрями — від програмування та юридичних послуг до медичної сфери та державного управління. У результаті тестування абсолютним лідером виявився Claude Opus 4.1, розроблений компанією Anthropic. Ця модель перевершила навіть найновіші версії ChatGPT, а також інші відомі рішення, такі як Gemini та Grok.
Згідно з результатами, Claude Opus 4.1 показав найкращі результати у восьми з дев’яти досліджуваних сфер, включно з державним управлінням, медициною та соціальними послугами. Його індекс «виграшу» склав 47,6, тоді як найближчий конкурент ChatGPT-5 high набрав 38,8 балів. GDPval оцінює, наскільки часто ШІ може виконати робочі завдання краще за досвідченого професіонала: йдеться про відповіді на звернення клієнтів, оптимізацію процесів чи пошук помилок у документації.
OpenAI наголошує, що публікація подібних порівнянь відображає їхню політику прозорості та прагнення вести чесний діалог про можливості штучного інтелекту.
Вплив дослідження на розвиток ШІ-сервісів
Назва GDPval навмисне відсилає до економічного показника ВВП, що підкреслює роль ШІ у підвищенні продуктивності праці та економічного зростання. Зауважимо, що під час дослідження також було з’ясовано: більшість користувачів ChatGPT застосовують його переважно у домашніх умовах, а не на роботі.
Робота проводилась за участі економістів Гарвардського університету та Національного бюро економічних досліджень США (NBER). Її результати можуть змінити фокус розробників ШІ-сервісів і сприяти створенню інструментів, що орієнтуються на реальні потреби користувачів у професійній діяльності.