Несмотря на достижения искусственного интеллекта в таких сферах, как шахматы, живопись и программирование, простые логические задачи, предназначенные для детей, остаются для него сложными. Недавний тест ARC-AG2 вновь подтвердил, что аналитическое мышление является серьезной проблемой для нейросетей.
Об этом сообщает ProIT
Что такое ARC-AG2?
ARC-AG2 (Abstraction and Reasoning Corpus) — это не обычный тест на IQ. Он состоит из набора визуальных задач, где нужно выявить логическую закономерность между цветными блоками и выбрать правильное продолжение. Задачи на первый взгляд выглядят простыми, но требуют абстрактного мышления, обобщения и креативности — навыков, которые человек развивает с детства, а нейросети, к сожалению, нет.
Результаты тестирования нейросетей
Примеры применения контекстного правила показали крайне низкие результаты у самых мощных моделей:
- Deepseek R1 — 1,3% правильных ответов
- Google Gemini и Claude 3.7 Sonnet — около 1%
- GPT-4.5 от OpenAI — всего 0,8%
Для сравнения, человек, даже без специальной подготовки, решает эти задачи значительно лучше. Это ставит под сомнение способность современных моделей к реальному «пониманию», а не просто обработке информации.
Этот провал демонстрирует, что искусственный интеллект не может учиться на ходу. Если данные не включены в его тренировочную базу, он оказывается бессильным. Тест построен так, чтобы исключить возможность «зазубрить» ответы, и в этом аспекте «разумность» моделей теряет смысл.
Предыдущий тест ARC-AG1 также оставался «нерешаемым» для нейросетей. Если ARC-AG2 повторит эту тенденцию, это может замедлить развитие искусственного общего интеллекта (AGI), способного к настоящему человеческому мышлению. На сегодняшний день ИИ остается мощным инструментом, но не мыслящим существом.
Тем временем, пока нейросети не могут решить простые задачи для школьников, разработчики продолжают искать ответы на главный вопрос: как научить машину действительно думать?