Штучний інтелект o4-mini переміг математиків у Берклі

У травні в Берклі, Каліфорнія, відбулася закрита зустріч, яка об’єднала тридцять найвидатніших математиків світу, включаючи експертів з Великої Британії. Основною метою цього заходу стало випробування штучного інтелекту — чат-бота, здатного розв’язувати складні математичні задачі, створені самими математиками. Таким чином, учасники перевіряли, чи зможе сучасна машина перевершити людський розум у сфері абстрактних міркувань.

Про це розповідає ProIT

Можливості o4-mini: новий рівень штучного інтелекту у математиці

Упродовж двох днів інтенсивних випробувань дослідники були вражені результатами: штучний інтелект блискуче справлявся з частиною надскладних математичних задач. За словами Кена Оно, математика з Університету Вірджинії та організатора конкурсу,

«У мене є колеги, які буквально сказали, що ці моделі наближаються до математичного генія».

Головним героєм інтелектуального протистояння став чат-бот на основі o4-mini — нової моделі великої мови (LLM), розробленої OpenAI. Вона призначена для роботи з надзвичайно складними логічними висновками. Аналогічний продукт існує і в Google — йдеться про Gemini 2.5 Flash. На відміну від попередніх LLM, o4-mini легша та спритніша, оскільки її навчали на спеціалізованих вибірках з посиленим людським підкріпленням, що дозволяє моделі ефективніше розв’язувати складні математичні питання.

FrontierMath: випробування для найсильніших

Щоб оцінити реальні можливості o4-mini, OpenAI залучила до роботи Epoch AI — некомерційну організацію, яка спеціалізується на оцінці LLM. Вона розробила 300 ексклюзивних математичних завдань, розв’язки яких залишалися невідомими. Традиційні LLM зазвичай не могли вирішити навіть 2% таких задач, однак o4-mini виявився винятком.

У вересні 2024 року до нового проєкту FrontierMath долучився Елліот Глейзер, молодий математик, який щойно захистив дисертацію. Він разом із командою створив завдання різних рівнів складності: від студентських до найскладніших, що під силу лише провідним фахівцям. До квітня 2025 року o4-mini вже міг розв’язати близько 20% цих питань. Особливо складні — четвертого рівня — задачі розробляли математики, які підписали угоду про нерозголошення й спілкувалися лише через Signal, щоб уникнути випадкового потрапляння інформації у навчальні датасети LLM.

За кожну нерозв’язану задачу винагорода для автора становила 7500 доларів. Група рухалася вперед поступово, але прагнула пришвидшити процес, тож Epoch AI організувала особисту зустріч у травні 2025 року. Учасників поділили на команди, які протягом двох днів придумували задачі, що могли б спантеличити штучний інтелект. Це випробування не лише підкреслило зростаючі можливості сучасних LLM у сфері математичних розрахунків, але й засвідчило стрімкий прогрес штучного інтелекту, що змінює уявлення про межі людських та машинних інтелектуальних здібностей.