Незважаючи на досягнення штучного інтелекту в таких сферах, як шахи, живопис та програмування, прості логічні задачі, призначені для дітей, залишаються для нього складними. Нещодавній тест ARC-AG2 знову засвідчив, що аналітичне мислення є серйозною проблемою для нейромереж.
Про це розповідає ProIT
Що таке ARC-AG2?
ARC-AG2 (Abstraction and Reasoning Corpus) — це не звичайний тест на IQ. Він складається з набору візуальних задач, де потрібно виявити логічну закономірність між кольоровими блоками та вибрати правильне продовження. Задачі на перший погляд виглядають простими, але вимагають абстрактного мислення, узагальнення та креативності — навичок, які людина розвиває з дитинства, а нейромережі, на жаль, ні.
Результати тестування нейромереж
Приклади застосування контекстного правила показали вкрай низькі результати у найпотужніших моделей:
- Deepseek R1 — 1,3% правильних відповідей
- Google Gemini і Claude 3.7 Sonnet — близько 1%
- GPT-4.5 від OpenAI — лише 0,8%
Для порівняння, людина, навіть без спеціальної підготовки, розв’язує ці задачі значно краще. Це ставить під сумнів здатність сучасних моделей до реального “розуміння”, а не просто обробки інформації.
Цей провал демонструє, що штучний інтелект не може вчитися на ходу. Якщо дані не включені в його тренувальну базу, він виявляється безсилим. Тест побудований так, щоб виключити можливість “зазубрити” відповіді, й у цьому аспекті “розумність” моделей втрачає сенс.
Попередній тест ARC-AG1 також залишався “нерозв’язним” для нейромереж. Якщо ARC-AG2 повторить цю тенденцію, це може уповільнити розвиток штучного загального інтелекту (AGI), здатного до справжнього людського мислення. На сьогоднішній день ШІ залишається потужним інструментом, але не мислячою істотою.
Тим часом, поки нейромережі не можуть вирішити прості задачі для школярів, розробники продовжують шукати відповіді на головне питання: як навчити машину дійсно думати?