Обмеження штучного інтелекту у міркуваннях: нове дослідження

Науковці з Університету Арізони провели комплексне дослідження, в якому поставили під сумнів реальну здатність сучасних штучних інтелектуальних моделей до абстрактного мислення і логічних міркувань. Вони наголосили, що так звані «ланцюжки думок», які використовують великі мовні моделі (LLM), не свідчать про наявність у них справжніх когнітивних здібностей.

Про це розповідає ProIT

Особливості тестування штучного інтелекту

Для експерименту дослідники створили спеціальне тестове середовище під назвою DataAlchemy. У його межах невеликі LLM навчали виконувати прості текстові перетворення, наприклад, ROT-шифрування та циклічні зсуви. Після цього ШІ просили комбінувати ці навички у нових варіаціях, які не були представлені в навчальному наборі.

Результати експерименту виявили серйозні обмеження: коли моделі стикалися з незнайомими комбінаціями або нетиповими завданнями, їхня точність різко знижувалася. Часто ШІ давали правильну відповідь з невірним «обґрунтуванням» або навпаки — вибудовували коректний ланцюжок міркувань, але не доходили до вірного результату. Навіть незначне відхилення в параметрах вхідних даних, таких як довжина тексту чи форматування, призводило до значного падіння ефективності моделей.

Висновки та попередження дослідників

Науковці підкреслили, що додаткове навчання моделей, навіть із залученням релевантних даних через контрольоване доналаштування (SFT), лише частково покращує результати. Головна проблема — відсутність у LLM здатності до справжнього абстрактного мислення — залишається невирішеною. Такий підхід дослідники назвали «латкою», а не повноцінним рішенням.

За словами авторів дослідження, ланцюжки думок у сучасних LLM є лише «структурованим зіставленням зі зразком», що швидко втрачає ефективність за мінімальної зміни умов. Ця властивість, поряд із здатністю генерувати зв’язний, але помилковий текст, створює «ілюзію надійності», яка може ввести користувачів в оману.

Дослідники рекомендують змінити підхід до оцінки ШІ-моделей, віддаючи перевагу завданням «поза областю» навчання для виявлення їхніх слабких місць. Вони особливо застерігають від ототожнення CoT-висновків (chain-of-thought) із людським мисленням, наголошуючи на ризиках у таких сферах, як медицина, фінанси та право. Для розвитку майбутніх ШІ-моделей необхідно перейти від простого розпізнавання шаблонів до формування справжніх навичок міркування.

Раніше повідомлялося, що Марк Цукерберг оголосив про плани компанії Meta зі створення «персонального суперінтелекту».