OpenAI официально анонсировала запуск нового искусственного интеллектуального агента под названием Operator. Этот инструмент призван автоматизировать действия в обозревателе, обеспечивая взаимодействие с элементами на экране, такими как кнопки и текстовые поля, подобно тому, как это делает человек.
Об этом сообщает ProIT
Новая модель искусственного интеллекта
Operator работает на основе новой модели искусственного интеллекта, известной как Computer-Using Agent (CUA). Эта технология позволяет агенту управлять компьютером через визуальный интерфейс, комбинируя мощности GPT-4o с возможностями распознавания изображений и усовершенствованным механизмом размышления. Процесс работы агента состоит из нескольких этапов: сначала он производит снимки экрана, анализирует их и определяет, какие действия нужно выполнить. Впоследствии с помощью симуляции мыши и клавиатуры агент может осуществлять нажатие, прокрутку или ввод текста.
При выполнении своих задач Operator отображает все действия в маленьком окне обозревателя, что позволяет пользователям контролировать процесс.
Безопасность и доступность
Хотя технология относительно новая, она уже демонстрирует хорошие результаты в выполнении повторяющихся задач, таких как создание списков покупок. Однако агент может сталкиваться с трудностями при работе с незнакомыми интерфейсами, например таблицами или календарями, а также при редактировании сложных текстов.
OpenAI также реализовала несколько элементов безопасности в новом инструменте, требующих подтверждения пользователя перед выполнением важных действий, таких как отправка электронных писем или совершение покупок. Кроме того, Operator имеет ограничения на доступ к определенным типам контента, в частности сайтам для взрослых и азартных игр.
С сегодняшнего дня оператор доступен в предварительном просмотре для подписчиков ChatGPT Pro за $200 (только в США). В будущем OpenAI планирует расширить доступ к инструменту для владельцев тарифов Plus, Team и Enterprise, а также интегрировать Operator непосредственно в ChatGPT и выпустить CUA через API для разработчиков.
Предварительный просмотр позволит OpenAI собрать отзывы о работе Operator и усовершенствовать систему.
“Рекомендуем версию Operator, agent, который может использовать свой собственный инструмент для выполнения дел на вас.”
OpenAI не является единственным игроком на рынке «агентских» систем ИИ. В декабре прошлого года Google представила Project Mariner, выполняющий автоматизированные задания в браузере Chrome. Также в декабре аналогичную систему анонсировала компания Anthropic.