Gemini 3 Deep Think: Новий рівень ШІ для науки та інженерії

Google анонсувала масштабне оновлення платформи штучного інтелекту Gemini 3 Deep Think, розробленої для вирішення складних наукових і інженерних завдань. Над створенням цієї версії компанія співпрацювала з провідними науковцями, орієнтуючись на питання, для яких не існує однозначних відповідей чи повних даних.

Про це розповідає ProIT

Нові можливості для дослідників та інженерів

Gemini 3 Deep Think виходить за межі класичних теоретичних моделей, пропонуючи інструменти для застосування ШІ у практичних дослідженнях. Оновлений режим став доступний користувачам додатка Gemini, які оформили передплату Google AI Ultra, а також через API Gemini — для інженерів, дослідників і компаній за заявкою.

У ході тестування платформа продемонструвала високі результати: 48,4% у Humanity’s Last Exam без додаткових інструментів, 84,6% у бенчмарку ARC-AGI-2, Ело-рейтинг 3455 на Codeforces, рівень золотої медалі в ММО-2025, а також 50,5% у CMT-Benchmark з теоретичної фізики.

Інноваційний ШІ-агент Aletheia

На основі Gemini 3 Deep Think створено агента штучного інтелекту Aletheia, який може перевіряти наукові гіпотези, виявляти недоліки рішень та ітеративно генерувати відповіді з урахуванням власних обмежень. Для роботи з комплексними дослідницькими задачами Aletheia використовує пошук Google і веб-навігацію, намагаючись уникати фейкових джерел та неточностей.

AI science

Рівень досягнень Aletheia оцінюють за п’ятибальною шкалою. У режимі майже повної автономності агент вирішив три відкриті задачі Пала Ердеша на нульовому рівні (“незначна новизна”) і одну задачу на першому рівні (“мінімальна новизна”). До другого рівня (“придатне для публікації”) Aletheia дійшов як автономно, так і у співпраці з людиною чи як допоміжний інструмент. Третій і четвертий рівні (“значний прорив”, “знаменний прорив”) поки що залишаються недосяжними для агента.

Серед 700 невирішених проблем Ердеша Aletheia вдалося знайти рішення для 13 із них: 9 задач вже мали відомі розв’язання, а дійсно новими стали тільки 4. З 212 наданих рішень змістовно правильними виявилися лише 6,5%, інші містили помилки чи неправильне трактування умов.

Розробники визнають, що Aletheia “схильний спрощувати питання для легшої відповіді” і “залишається вразливим до помилок порівняно з людьми”, тому поки що не може замінити математиків.