Главная Наука Чат-боты не справились с тестом для школьников: вызовы искусственному интеллекту

Чат-боты не справились с тестом для школьников: вызовы искусственному интеллекту

Несмотря на достижения искусственного интеллекта в таких сферах, как шахматы, живопись и программирование, простые логические задачи, предназначенные для детей, остаются для него сложными. Недавний тест ARC-AG2 вновь подтвердил, что аналитическое мышление является серьезной проблемой для нейросетей.

Об этом сообщает ProIT

Что такое ARC-AG2?

ARC-AG2 (Abstraction and Reasoning Corpus) — это не обычный тест на IQ. Он состоит из набора визуальных задач, где нужно выявить логическую закономерность между цветными блоками и выбрать правильное продолжение. Задачи на первый взгляд выглядят простыми, но требуют абстрактного мышления, обобщения и креативности — навыков, которые человек развивает с детства, а нейросети, к сожалению, нет.

Результаты тестирования нейросетей

Примеры применения контекстного правила показали крайне низкие результаты у самых мощных моделей:

  • Deepseek R1 — 1,3% правильных ответов
  • Google Gemini и Claude 3.7 Sonnet — около 1%
  • GPT-4.5 от OpenAI — всего 0,8%

Для сравнения, человек, даже без специальной подготовки, решает эти задачи значительно лучше. Это ставит под сомнение способность современных моделей к реальному «пониманию», а не просто обработке информации.

Этот провал демонстрирует, что искусственный интеллект не может учиться на ходу. Если данные не включены в его тренировочную базу, он оказывается бессильным. Тест построен так, чтобы исключить возможность «зазубрить» ответы, и в этом аспекте «разумность» моделей теряет смысл.

Предыдущий тест ARC-AG1 также оставался «нерешаемым» для нейросетей. Если ARC-AG2 повторит эту тенденцию, это может замедлить развитие искусственного общего интеллекта (AGI), способного к настоящему человеческому мышлению. На сегодняшний день ИИ остается мощным инструментом, но не мыслящим существом.

Тем временем, пока нейросети не могут решить простые задачи для школьников, разработчики продолжают искать ответы на главный вопрос: как научить машину действительно думать?

Читайте также

About Us

Soledad is the Best Newspaper and Magazine WordPress Theme with tons of options and demos ready to import. This theme is perfect for blogs and excellent for online stores, news, magazine or review sites. Buy Soledad now!

Latest Articles

© ProIT. Видання не несе жодної відповідальності за зміст і достовірність фактів, думок, поглядів, аргументів та висновків, які викладені у інформаційних матеріалах з посиланням на інші джерела інформації. Усі запити щодо такої інформації мають надсилатися виключно джерелам відповідної інформації.