Нещодавно група математиків створила серію складних завдань, щоб перевірити здатність до міркування сучасних моделей штучного інтелекту, таких як Gemini, Claude та GPT-4o. На жаль, більшість цих тестів виявилися надзвичайно складними для технологій, які наразі вважаються одними з найпрогресивніших у світі.
Про це розповідає ProIT
Тестові завдання FrontierMath
Інститут Epoch AI розробив нову серію тестів під назвою FrontierMath, які орієнтовані на оцінку математичних знань та вмінь штучного інтелекту. Ці завдання були створені за участі досвідчених математиків, включаючи лауреатів премії Філдса. Завдання вимагали від АІ-моделей здатності розв’язувати складні математичні задачі.
Результати тестування
Незважаючи на високообіцяючий потенціал, моделі відомих компаній, таких як Google та Anthropic, отримали лише 2% правильних відповідей. OpenAI з моделлю GPT-4o виявилася ще менш успішною, здобувши лише 1% успіху. Модель Grok-2 Beta від xAI не змогла розв’язати жодної задачі.
Окрім FrontierMath, моделі також були протестовані на відомій платформі MMLU (Measuring Massive Multitask Language Understanding), де модель GPT-4o продемонструвала 98% успіху у вирішенні багатозадачних мовних завдань.
«Ці завдання надзвичайно складні. Навіть фахівці можуть розв’язати лише за умови максимальної зосередженості та великої практики у сфері математики», — зауважив лауреат Філдсівської премії 2006 року Терренс Тао.
Розробники закликають до поліпшення моделей штучного інтелекту, щоб мати можливість вирішувати такі складні завдання ефективніше. Це важливо для подальшого розвитку різних сфер, де математика відіграє ключову роль.