Компанія OpenAI презентувала новий бенчмарк GDPval, що дозволяє оцінити, наскільки її штучний інтелект GPT-5 та інші моделі здатні виконувати завдання на рівні професіоналів у різних галузях. Цей тест є першим кроком до розуміння, наскільки близько розробки OpenAI підійшли до виконання економічно цінної роботи, яку традиційно виконують люди — це одна із ключових цілей компанії на шляху до створення штучного загального інтелекту (AGI).
Про це розповідає ProIT
Особливості тесту GDPval та результати GPT-5
GDPval охоплює дев’ять основних галузей, що формують значну частку валового внутрішнього продукту США. Серед них — охорона здоров’я, фінанси, виробництво, держуправління та інші. У межах тесту оцінювалися результати роботи штучного інтелекту у 44 професіях, від програмістів і медсестер до журналістів.
У першій версії тесту, GDPval-v0, досвідченим фахівцям пропонували порівнювати звіти, написані штучним інтелектом, із роботами інших спеціалістів, обираючи кращий варіант. Наприклад, інвестиційних банкірів просили створити аналіз конкурентів у галузі доставки, а потім порівнювати результати з відповідями AI. Показник “win rate” демонстрував, як часто AI перевершував чи не поступався людині у виконанні завдань у всіх 44 професіях.
Порівняння моделей та перспективи розвитку
Покращена версія GPT-5, GPT-5-high, показала результат, коли її відповідь вважалася кращою або рівнозначною експертній у 40,6% випадків. Модель Claude Opus 4.1 від Anthropic продемонструвала ще вищий показник — 49%. Водночас, як зазначають в OpenAI, така висока оцінка Claude частково пояснюється схильністю моделі створювати привабливі візуальні матеріали, а не лише якістю самої роботи.
“[Тому що] модель добре справляється з деякими завданнями, люди в цих професіях можуть використовувати її, щоб делегувати частину роботи й зосередитися на більш цінних завданнях”, — зазначив головний економіст OpenAI доктор Аарон Чаттерджі.
У компанії підкреслюють, що незважаючи на прогрес, сьогоднішній тест GDPval охоплює лише обмежене коло завдань, зокрема написання дослідницьких звітів, і не відображає всі аспекти професійної діяльності. OpenAI планує розширити тестування, щоб воно охоплювало більше галузей та інтерактивних робочих процесів.
Розробники наголошують, що динаміка розвитку штучного інтелекту вражає: для порівняння, GPT-4o, представлений близько 15 місяців тому, отримав лише 13,7% позитивних оцінок у таких тестах. Нині ж GPT-5 демонструє майже утричі кращий результат, і експерти очікують продовження цієї тенденції.
У Кремнієвій долині існує низка тестів для оцінки прогресу штучного інтелекту, серед яких AIME 2025 (математичні задачі підвищеної складності) та GPQA Diamond (питання рівня докторантури з природничих наук). Однак багато моделей вже досягли межі наявних бенчмарків, тож дослідники все частіше підкреслюють потребу у нових тестах, які б краще відображали можливості AI у реальних робочих завданнях.
GDPval може стати одним із таких інструментів, що визначає місце AI у різних галузях економіки. Водночас для остаточного підтвердження переваги AI над людьми OpenAI ще потрібно створити більш комплексні тести, які охоплюватимуть ширший спектр професійної діяльності.