Искусственный интеллект o4-mini побеждает математиков в Беркли

В мае в Беркли, Калифорния, состоялась закрытая встреча, которая объединила тридцать самых выдающихся математиков мира, включая экспертов из Великобритании. Основной целью этого мероприятия стало испытание искусственного интеллекта — чат-бота, способного решать сложные математические задачи, созданные самими математиками. Таким образом, участники проверяли, сможет ли современная машина превзойти человеческий разум в сфере абстрактных рассуждений.

Об этом сообщает ProIT

Возможности o4-mini: новый уровень искусственного интеллекта в математике

В течение двух дней интенсивных испытаний исследователи были поражены результатами: искусственный интеллект блестяще справлялся с частью сверхсложных математических задач. По словам Кена Оно, математика из Университета Виргинии и организатора конкурса,

«У меня есть коллеги, которые буквально сказали, что эти модели приближаются к математическому гению».

Главным героем интеллектуального противостояния стал чат-бот на основе o4-mini — новой модели большого языка (LLM), разработанной OpenAI. Она предназначена для работы с чрезвычайно сложными логическими выводами. Аналогичный продукт существует и в Google — речь идет о Gemini 2.5 Flash. В отличие от предыдущих LLM, o4-mini легче и проворнее, поскольку ее обучали на специализированных выборках с усиленным человеческим подкреплением, что позволяет модели эффективнее решать сложные математические вопросы.

FrontierMath: испытание для сильнейших

Чтобы оценить реальные возможности o4-mini, OpenAI привлекла к работе Epoch AI — некоммерческую организацию, которая специализируется на оценке LLM. Она разработала 300 эксклюзивных математических заданий, решения которых оставались неизвестными. Традиционные LLM обычно не могли решить даже 2% таких задач, однако o4-mini оказался исключением.

В сентябре 2024 года к новому проекту FrontierMath присоединился Эллиот Глейзер, молодой математик, который только что защитил диссертацию. Он вместе с командой создал задания различных уровней сложности: от студенческих до самых сложных, что под силу лишь ведущим специалистам. К апрелю 2025 года o4-mini уже мог решить около 20% этих вопросов. Особенно сложные — четвертого уровня — задачи разрабатывали математики, которые подписали соглашение о неразглашении и общались только через Signal, чтобы избежать случайного попадания информации в обучающие датасеты LLM.

За каждую неразрешенную задачу вознаграждение для автора составляло 7500 долларов. Группа двигалась вперед постепенно, но стремилась ускорить процесс, поэтому Epoch AI организовала личную встречу в мае 2025 года. Участников разделили на команды, которые в течение двух дней придумывали задачи, которые могли бы поставить искусственный интеллект в тупик. Это испытание не только подчеркнуло растущие возможности современных LLM в сфере математических расчетов, но и засвидетельствовало стремительный прогресс искусственного интеллекта, который меняет представления о границах человеческих и машинных интеллектуальных способностей.