Незважаючи на значні досягнення в галузі штучного інтелекту, від створення фотореалістичних зображень до генерації людського мовлення, деякі завдання, які людина виконує без зусиль, залишаються непосильними для ШІ. Нещодавнє дослідження виявило ряд таких завдань, зокрема читання аналогового годинника та визначення дня тижня для конкретної дати.
Про це розповідає ProIT
Дослідження демонструє, що сучасні моделі ШІ, які здатні складати іспити та генерувати переконливий текст, часто помиляються під час інтерпретації положення стрілок на циферблаті. Вони також не можуть виконати прості арифметичні операції, необхідні для роботи з календарем. Ці результати були представлені на Міжнародній конференції з навчальних репрезентацій (ICLR) 2025 року.
Рохіт Саксена, провідний автор дослідження, зазначає, що більшість людей опановують навички визначення часу в ранньому віці.
Дослідження показало, що сучасні моделі ШІ не можуть правильно визначити час на зображеннях годинників чи дні тижня для заданих дат у понад половині випадків. Науковці створили спеціальний набір даних із зображеннями годинників та календарів і протестували його на мультимодальних великих мовних моделях (MLLM), таких як Llama 3.2-Vision від Meta, Claude-3.5 Sonnet від Anthropic, Gemini 2.0 від Google та GPT-4o від OpenAI. Результати виявилися невтішними: жодна з протестованих моделей не продемонструвала успіху в цих завданнях.
Автори дослідження пояснили, що ця слабкість штучного інтелекту пов’язана з тим, що ранні системи навчалися на основі розмічених прикладів, тоді як для читання годинника потрібні навички просторового мислення. Модель повинна вміти ідентифікувати стрілки, вимірювати кути між ними та орієнтуватися на різних дизайнах циферблатів.
Завдання з визначення днів тижня виявилося не менш складним для ШІ. Наприклад, при запитанні “Який день буде 153-м днем року?” моделі демонстрували аналогічно високий рівень помилок. ШІ правильно визначало час лише в 38,7% випадків, а дні тижня — лише у 26,3%. Це здивувало дослідників, оскільки арифметика є основою обчислювальної техніки.
Моделі ШІ використовують різні підходи для прогнозування результатів, спираючись на шаблони, які вони виявили під час навчання, а не на послідовні математичні алгоритми. Це дослідження показує, що хоча ШІ може іноді давати правильні відповіді, його міркування не завжди є логічними.
Цей проєкт підкреслює відмінності між тим, як люди та штучний інтелект сприймають світ. У той час як моделі ШІ досягають успіху на основі знайомих шаблонів, вони не можуть узагальнювати чи використовувати абстрактне мислення. Як зазначає Саксена, завдання, які здаються простими, такими як читання годинника, можуть бути неймовірно складними для ШІ.
Дослідження також висвітлює проблеми, з якими стикається штучний інтелект при навчанні на обмежених даних, зокрема на рідкісних випадках, як високосні роки. Це підкреслює важливість наявності різноманітних прикладів у навчальних даних та переосмислення підходів до обробки ШІ, які поєднують логічне та просторове мислення.
Результати дослідження застерігають про ризики надмірної довіри до результатів, отриманих за допомогою штучного інтелекту. Саксена підсумовує: «Штучний інтелект є потужним інструментом, але в завданнях, які поєднують сприйняття і точне мислення, нам слід бути обережними і використовувати людську участь у процесі прийняття рішень».