Google представила оновлену версію свого дослідницького агента Gemini Deep Research, створеного на основі флагманської моделі штучного інтелекту Gemini 3 Pro. Оновлений інструмент не лише генерує аналітичні звіти, але й дозволяє розробникам інтегрувати потужні дослідницькі можливості Google у власні додатки завдяки запуску нового Interactions API.
Про це розповідає ProIT
Нові можливості для розробників і бізнесу
Використовуючи Interactions API, розробники отримують розширений контроль над інтеграцією штучного інтелекту у свої продукти, готуючись до епохи агентних ІІ-систем. Завдяки цьому агент здатен опрацьовувати значний обсяг даних і виконувати глибокий аналіз, що вже активно використовується клієнтами для завдань від перевірки контрагентів до досліджень у сфері безпеки лікарських засобів.
У найближчий час Gemini Deep Research планують інтегрувати у ключові сервіси компанії, серед яких Google Search, Google Finance, додаток Gemini App та популярний NotebookLM. Це черговий крок до світу, де пошук інформації виконуватимуть інтелектуальні агенти замість людей.
Покращення достовірності та нові бенчмарки
Оновлений агент використовує модель Gemini 3 Pro, яка є найбільш фактичним рішенням Google і спеціально навчена мінімізувати так звані «галюцинації» штучного інтелекту — ситуації, коли ІІ вигадує неіснуючі дані. Ця проблема особливо актуальна для складних і тривалих завдань, де серія неправильних рішень може призвести до хибних результатів.
Щоб підтвердити ефективність нового агента, Google створила новий відкритий бенчмарк DeepSearchQA, що дозволяє оцінювати агенти на багатокрокових завданнях з пошуку інформації. Крім цього, Gemini Deep Research було протестовано на незалежному бенчмарку Humanity’s Last Exam — надскладному тесті на загальні знання, а також на BrowserComp, що перевіряє ефективність агентів у браузерних завданнях.
“AI hallucinations — where the LLM just makes stuff up — are an especially crucial issue for long-running, deep reasoning agentic tasks, in which many autonomous decisions are made over minutes, hours, or longer. The more choices an LLM has to make, the greater the chance that even one hallucinated choice will invalidate the entire output.”
За результатами тестування, новий агент Google випередив конкурентів на власних бенчмарках та у Humanity’s Last Exam, хоча ChatGPT 5 Pro від OpenAI демонстрував схожі результати та навіть незначно перевершив Google у BrowserComp.
Однак ці порівняння швидко втратили актуальність, адже того ж дня OpenAI анонсувала довгоочікуваний GPT 5.2 (кодова назва Garlic), який, за словами компанії, перевершує конкурентів, зокрема Google, на ряді стандартних тестів, включаючи власні бенчмарки OpenAI.
Час релізу став не менш інтригуючим: Google зробила гучну заяву саме у день, коли світ очікував виходу моделі Garlic від OpenAI.