Ученые из Университета Аризоны провели комплексное исследование, в котором поставили под сомнение реальную способность современных искусственных интеллектуальных моделей к абстрактному мышлению и логическим рассуждениям. Они подчеркнули, что так называемые «цепочки размышлений», которые используют большие языковые модели (LLM), не свидетельствуют о наличии у них настоящих когнитивных способностей.
Об этом сообщает ProIT
Особенности тестирования искусственного интеллекта
Для эксперимента исследователи создали специальную тестовую среду под названием DataAlchemy. В ее рамках небольшие LLM обучали выполнять простые текстовые преобразования, например, ROT-шифрование и циклические сдвиги. После этого ИИ просили комбинировать эти навыки в новых вариациях, которые не были представлены в учебном наборе.
Результаты эксперимента выявили серьезные ограничения: когда модели сталкивались с незнакомыми комбинациями или нетипичными задачами, их точность резко снижалась. Часто ИИ давали правильный ответ с неверным «обоснованием» или, наоборот, выстраивали корректную цепочку рассуждений, но не доходили до верного результата. Даже незначительное отклонение в параметрах входных данных, таких как длина текста или форматирование, приводило к значительному падению эффективности моделей.
Выводы и предупреждения исследователей
Ученые подчеркнули, что дополнительное обучение моделей, даже с привлечением релевантных данных через контролируемую донастройку (SFT), лишь частично улучшает результаты. Главная проблема — отсутствие у LLM способности к настоящему абстрактному мышлению — остается неразрешенной. Такой подход исследователи назвали «латкой», а не полноценным решением.
По словам авторов исследования, цепочки размышлений в современных LLM являются лишь «структурированным сопоставлением с образцом», которое быстро теряет эффективность при минимальном изменении условий. Эта особенность, наряду со способностью генерировать связный, но ошибочный текст, создает «иллюзию надежности», которая может ввести пользователей в заблуждение.
Исследователи рекомендуют изменить подход к оценке ИИ-моделей, отдавая предпочтение задачам «вне области» обучения для выявления их слабых мест. Они особенно предостерегают от отождествления CoT-выводов (цепочка размышлений) с человеческим мышлением, подчеркивая риски в таких сферах, как медицина, финансы и право. Для развития будущих ИИ-моделей необходимо перейти от простого распознавания шаблонов к формированию настоящих навыков рассуждения.
Ранее сообщалось, что Марк Цукерберг объявил о планах компании Meta по созданию «персонального суперинтеллекта».