Симулированный маркетплейс от Microsoft для тестирования ИИ

Исследователи Microsoft совместно с Аризонским государственным университетом разработали новое симуляционное окружение для тестирования поведения агентов с искусственным интеллектом. Презентованная система получила название “Magentic Marketplace” и служит платформой для экспериментов с разнообразными сценариями взаимодействия ИИ-агентов.

Об этом сообщает ProIT

Особенности Magentic Marketplace и экспериментальные результаты

В рамках исследования был создан синтетический рынок, где 100 агентов-клиентов выполняли задачи согласно инструкциям пользователя, а 300 агентов, представляющих различные бизнесы, соревновались за заказы. Благодаря открытому коду этого окружения, любые другие исследователи могут быстро развернуть собственные эксперименты или проверить полученные результаты.

В процессе тестирования использовались самые современные модели, в частности GPT-4o, GPT-5 и Gemini-2.5-Flash. Выяснилось, что все эти системы имеют неожиданные слабые стороны. В частности, разработчики выяснили, что бизнес-агенты могут применять определенные приемы для манипулирования клиентскими агентами с целью увеличения продаж. Кроме того, когда агент-клиент получал слишком много вариантов для выбора, его эффективность резко снижалась из-за перегрузки информацией.

“Мы хотим, чтобы эти агенты помогали нам обрабатывать большое количество опций. Но мы видим, что современные модели на самом деле очень перегружаются, когда получают слишком много вариантов,” — отметила руководительница лаборатории Microsoft Research AI Frontiers Эдж Камар.

Вызовы в сотрудничестве агентов и пути совершенствования

Исследователи также отметили проблемы в организации командной работы между агентами. В случаях, когда им нужно было совместно достичь общей цели, модели не всегда понимали, кто из агентов должен выполнять какую роль, что приводило к неэффективному взаимодействию. Только при условии предоставления четких пошаговых инструкций эффективность сотрудничества улучшалась, однако это указывает на необходимость дальнейшего совершенствования встроенных командных навыков моделей искусственного интеллекта.