Google анонсировала масштабное обновление платформы искусственного интеллекта Gemini 3 Deep Think, разработанной для решения сложных научных и инженерных задач. При создании этой версии компания сотрудничала с ведущими учеными, ориентируясь на вопросы, для которых не существует однозначных ответов или полных данных.
Об этом сообщает ProIT
Новые возможности для исследователей и инженеров
Gemini 3 Deep Think выходит за рамки классических теоретических моделей, предлагая инструменты для применения ИИ в практических исследованиях. Обновленный режим стал доступен пользователям приложения Gemini, которые оформили подписку Google AI Ultra, а также через API Gemini — для инженеров, исследователей и компаний по заявке.
В ходе тестирования платформа продемонстрировала высокие результаты: 48,4% в Humanity’s Last Exam без дополнительных инструментов, 84,6% в бенчмарке ARC-AGI-2, Эло-рейтинг 3455 на Codeforces, уровень золотой медали в ММО-2025, а также 50,5% в CMT-Benchmark по теоретической физике.
Инновационный ИИ-агент Aletheia
На основе Gemini 3 Deep Think создан агент искусственного интеллекта Aletheia, который может проверять научные гипотезы, выявлять недостатки решений и итеративно генерировать ответы с учетом собственных ограничений. Для работы с комплексными исследовательскими задачами Aletheia использует поиск Google и веб-навигацию, стараясь избегать фейковых источников и неточностей.

Уровень достижений Aletheia оценивается по пятибалльной шкале. В режиме почти полной автономности агент решил три открытые задачи Пала Эрдеша на нулевом уровне («незначительная новизна») и одну задачу на первом уровне («минимальная новизна»). До второго уровня («пригодно для публикации») Aletheia достиг как автономно, так и в сотрудничестве с человеком или как вспомогательный инструмент. Третий и четвертый уровни («значительный прорыв», «знаменательный прорыв») пока что остаются недоступными для агента.
Среди 700 нерешенных проблем Эрдеша Aletheia удалось найти решения для 13 из них: 9 задач уже имели известные решения, а действительно новыми стали только 4. Из 212 предоставленных решений содержательно правильными оказались лишь 6,5%, остальные содержали ошибки или неправильное толкование условий.
Разработчики признают, что Aletheia “склонен упрощать вопросы для более легкого ответа” и “остается уязвимым к ошибкам по сравнению с людьми”, поэтому пока не может заменить математиков.