Головна Наука Чат-боти не справилися з тестом для школярів: виклики штучного інтелекту

Чат-боти не справилися з тестом для школярів: виклики штучного інтелекту

Незважаючи на досягнення штучного інтелекту в таких сферах, як шахи, живопис та програмування, прості логічні задачі, призначені для дітей, залишаються для нього складними. Нещодавній тест ARC-AG2 знову засвідчив, що аналітичне мислення є серйозною проблемою для нейромереж.

Про це розповідає ProIT

Що таке ARC-AG2?

ARC-AG2 (Abstraction and Reasoning Corpus) — це не звичайний тест на IQ. Він складається з набору візуальних задач, де потрібно виявити логічну закономірність між кольоровими блоками та вибрати правильне продовження. Задачі на перший погляд виглядають простими, але вимагають абстрактного мислення, узагальнення та креативності — навичок, які людина розвиває з дитинства, а нейромережі, на жаль, ні.

Результати тестування нейромереж

Приклади застосування контекстного правила показали вкрай низькі результати у найпотужніших моделей:

  • Deepseek R1 — 1,3% правильних відповідей
  • Google Gemini і Claude 3.7 Sonnet — близько 1%
  • GPT-4.5 від OpenAI — лише 0,8%

Для порівняння, людина, навіть без спеціальної підготовки, розв’язує ці задачі значно краще. Це ставить під сумнів здатність сучасних моделей до реального “розуміння”, а не просто обробки інформації.

Цей провал демонструє, що штучний інтелект не може вчитися на ходу. Якщо дані не включені в його тренувальну базу, він виявляється безсилим. Тест побудований так, щоб виключити можливість “зазубрити” відповіді, й у цьому аспекті “розумність” моделей втрачає сенс.

Попередній тест ARC-AG1 також залишався “нерозв’язним” для нейромереж. Якщо ARC-AG2 повторить цю тенденцію, це може уповільнити розвиток штучного загального інтелекту (AGI), здатного до справжнього людського мислення. На сьогоднішній день ШІ залишається потужним інструментом, але не мислячою істотою.

Тим часом, поки нейромережі не можуть вирішити прості задачі для школярів, розробники продовжують шукати відповіді на головне питання: як навчити машину дійсно думати?

Читайте також

About Us

Soledad is the Best Newspaper and Magazine WordPress Theme with tons of options and demos ready to import. This theme is perfect for blogs and excellent for online stores, news, magazine or review sites. Buy Soledad now!

Latest Articles

© ProIT. Видання не несе жодної відповідальності за зміст і достовірність фактів, думок, поглядів, аргументів та висновків, які викладені у інформаційних матеріалах з посиланням на інші джерела інформації. Усі запити щодо такої інформації мають надсилатися виключно джерелам відповідної інформації.