Google представила Gemini 2.5: искусственный интеллект с функцией имитации действий в браузере

|
Google представила Gemini 2.5: искусственный интеллект с функцией имитации действий в браузере

Google презентовала предварительную версию мощной ИИ-модели Gemini 2.5, оснащенной инновационной функцией Computer Use. Эта разработка позволяет искусственному интеллекту взаимодействовать с веб-сайтами в браузере, имитируя действия человека — например, заполнение или отправку форм — без привлечения API или других специализированных интерфейсов.

Об этом сообщает ProIT

Особенности и преимущества Gemini 2.5 Computer Use

Gemini 2.5 создана для работы именно с интерфейсами, рассчитанными на людей, а не для автоматизированных систем. Новый ИИ использует визуальное восприятие и логическое мышление, что позволяет выполнять разнообразные задачи в браузере. По словам Google, технология уже была апробирована в функциях AI Mode и в исследовательском проекте Project Mariner, где ИИ-агенты самостоятельно выполняли действия, в частности добавляли товары в корзину по списку ингредиентов.

«Gemini 2.5 Computer Use создана для работы именно с интерфейсами, ориентированными на людей, а не на автоматизированные системы».

Конкуренция на рынке ИИ и доступность разработки

Презентация Gemini 2.5 состоялась вскоре после анонса новых возможностей ChatGPT от OpenAI, у которого появилась функция ChatGPT Agent для выполнения сложных задач за пользователя. Кроме того, компания Anthropic еще в прошлом году представила версию Claude с подобной функцией Computer Use. Тем не менее, Google подчеркивает, что ее решение превосходит конкурентов в тестах как для веб-, так и для мобильных сценариев.

Важным отличием Gemini 2.5 Computer Use является то, что она имеет доступ исключительно к браузеру, а не ко всей операционной системе, как некоторые альтернативы. В настоящее время технология еще не оптимизирована для полного управления настольными ОС, однако уже поддерживает 13 типов действий, среди которых открытие браузера, ввод текста, перетаскивание элементов и т.д.

Разработчики могут работать с моделью через платформу Google AI Studio и Vertex AI. Кроме того, публичную демонстрацию возможностей нового ИИ можно посмотреть в виртуальном браузере BrowserBase, где агент выполняет разнообразные задачи, например, играет в 2048 или осуществляет поиск популярных тем на Hacker News.