Чому штучний інтелект не розв'язує прості головоломки?

Попри значний прогрес у розвитку штучного інтелекту, комп’ютерні системи досі не здатні впоратися з простими логічними задачами, які людина вирішує майже миттєво. Сучасні моделі ШІ демонструють неабияку майстерність у складних іграх, таких як шахи чи Го, проте зазнають труднощів із завданнями, що потребують елементарного узагальнення та швидкого навчання.

Про це розповідає ProIT

Виклики для штучного інтелекту у вирішенні простих задач

Проблема криється у відмінності між вузькоспеціалізованим інтелектом, який переважає у сучасних ІІ-системах, та так званим загальним штучним інтелектом (ЗШІ). Людина здатна робити висновки та вчитися на обмежених даних, тоді як ШІ потребує значно більше інформації та часу для навчання. Для оцінки здатності штучних систем до узагальнення у 2019 році дослідник Франсуа Шолле створив спеціальний тест — Корпус абстракції та міркування (ARC). У цьому тесті учасники мають виявити приховане правило у невеликій кольоровій сітці та застосувати його до нової ситуації.

“Тест ARC вимірює здатність моделі навчатися у вузькій галузі, однак не є абсолютним критерієм наявності загального штучного інтелекту. Поки існують задачі, які людина може вирішити, а ШІ — ні, ми ще не досягли ЗШІ”, — підкреслює президент Фонду премії ARC Грег Камрадт.

На відміну від інших тестів, ARC-AGI-2 розробили так, щоб середньостатистична людина могла його пройти. Під час випробувань 400 добровольців продемонстрували середній результат на рівні 66%, а разом їхні відповіді охопили всі можливі правильні рішення. Однак для сучасних ШІ-моделей навіть ці відносно прості завдання виявилися надто складними. Причина полягає в тому, що людський мозок значно ефективніший у навчанні на окремих прикладах, ніж будь-яка з розроблених на сьогодні моделей ШІ.

Новий тест: інтерактивні відеоігри для оцінки здібностей ШІ

З огляду на ці обмеження, Фонд премії ARC представив новий тест — ARC-AGI-3. Він повністю відмовляється від формату сіток і натомість використовує інтерактивні відеоігри. Тут оцінюється не тільки здатність до логічного мислення, а й уміння планувати, досліджувати та інтуїтивно розпізнавати нове середовище. Тест містить 100 двовимірних піксельних головоломок, кожна з яких має навчити учасника — будь то людина чи штучний інтелект — певній міні-навичці.

На відміну від традиційних ігрових тестів, де ШІ може проводити мільярди симуляцій, ARC-AGI-3 пропонує абсолютно нові, незнайомі умови. За даними внутрішнього тестування, жодна з існуючих моделей ШІ не подолала навіть першого рівня. Це ще раз підтверджує: попри великі досягнення, сучасний штучний інтелект залишається далеким від людської гнучкості та справжньої здатності до узагальнення.