Новий бенчмарк APEX-Agents показав обмежені можливості ШІ-агентів для бізнесу

|
Новий бенчмарк APEX-Agents показав обмежені можливості ШІ-агентів для бізнесу

Майже два роки тому генеральний директор Microsoft Сатья Наделла передбачив, що штучний інтелект незабаром замінить працівників інтелектуальної сфери, до якої належать юристи, банкіри, бібліотекарі, бухгалтери, ІТ-фахівці та інші представники білих комірців. Однак, попри значний прогрес у розвитку основних моделей ШІ, масштабних змін у сфері інтелектуальної праці наразі не відбулося. Хоча сучасні моделі демонструють здатність до глибокого аналізу та планування, більшість робочих процесів білих комірців залишаються практично незмінними.

Про це розповідає ProIT

Дослідження компанії Mercor: випробування реальними завданнями

Дослідники з Mercor, великого постачальника навчальних даних, провели масштабний аналіз, який пролив світло на причини цього гальмування. Вони створили новий бенчмарк під назвою APEX-Agents, щоб оцінити, наскільки провідні моделі штучного інтелекту справляються з реальними завданнями білих комірців у сферах консалтингу, інвестиційного банкінгу та юриспруденції. Результати виявилися невтішними: жодна з досліджених моделей не змогла правильно відповісти хоча б на чверть поставлених питань. У переважній більшості випадків ШІ-агенти надавали неправильну відповідь або взагалі не могли відповісти.

Як пояснює генеральний директор Mercor Брендан Фуді, найбільшою проблемою для моделей стало знаходження інформації у різних доменах, що є ключовим умінням для більшості видів інтелектуальної праці.

“Одна з головних відмінностей нашого бенчмарку — це змодельоване робоче середовище, максимально наближене до професійних сервісів. У реальному житті ми взаємодіємо через Slack, Google Drive та інші інструменти, а не отримуємо всю інформацію від однієї людини в одному місці”.

APEX-Agents проти інших бенчмарків: результати та перспективи

Для проведення тестування використовували сценарії, розроблені фахівцями з власної експертної платформи Mercor. Саме ці спеціалісти формулювали запити та визначали критерії успішної відповіді. Питання були опубліковані на Hugging Face, що дозволяє оцінити їхню складність. Зокрема, одне із завдань у розділі “Юриспруденція” стосувалося відповідності дій компанії Northstar положенням статті 49 Регламенту ЄС про захист даних у разі експорту журналів подій з персональними даними до США. Хоча правильна відповідь на це питання — “так”, для її обґрунтування необхідно глибоко аналізувати політики компанії та європейське законодавство в галузі приватності.

Автори дослідження зазначають, що якщо б великі мовні моделі (LLM) могли надійно відповідати на подібні питання, це могло б замінити роботу багатьох сучасних юристів. За словами Фуді, це питання є одним з найважливіших для економіки, а сам тест максимально відображає реальні професійні виклики.

На відміну від бенчмарку GDPval від OpenAI, який перевіряє загальні знання у різних професіях, APEX-Agents зосереджений на виконанні складних, вузькоспеціалізованих завдань у професіях з високою доданою вартістю. Це робить перевірку складнішою, але й точніше дає зрозуміти, чи може ШІ автоматизувати подібну роботу.

Жодна з моделей не показала готовності повністю замінити інвестиційних банкірів чи інших фахівців, але деякі результати були ближчими до успіху. Найкраще впорався Gemini 3 Flash із показником одноразової точності у 24%, а GPT-5.2 — 23%. Дещо нижчі результати продемонстрували Opus 4.5, Gemini 3 Pro та GPT-5 — приблизно 18% точності.

Попри невисокі початкові результати, історія розвитку штучного інтелекту свідчить про здатність швидко долати складні бар’єри. Поява публічного тесту APEX-Agents стала відкритим викликом для розробників ШІ. Брендан Фуді впевнений, що найближчими місяцями провідні лабораторії продемонструють покращення. На його думку, моделі розвиваються дуже швидко: якщо зараз ШІ нагадує інтерна, який правильно відповідає у чверті випадків, то ще рік тому цей показник становив лише 5-10%. Подібна динаміка може мати значний вплив на індустрію вже найближчим часом.