Microsoft тестирует ИИ-агентов в Magentic Marketplace

Microsoft в сотрудничестве с Университетом Аризоны провела масштабное тестирование современных моделей искусственного интеллекта в симуляционном окружении Magentic Marketplace, чтобы оценить их взаимодействие, устойчивость к манипуляциям и способность к сотрудничеству.

Об этом сообщает ProIT

Экспериментальная платформа для тестирования ИИ-агентов

Экспериментальная платформа Magentic Marketplace, разработанная командой Microsoft Research, стала новым инструментом для исследования поведения агентских систем искусственного интеллекта в смоделированных рыночных условиях. В этом окружении сотни цифровых агентов выполняли задачи, имитирующие реальные сценарии, такие как заказ еды или участие в конкурентной борьбе за выгодные сделки.

Открытый исходный код Magentic Marketplace позволяет независимым командам воспроизводить и развивать проведенные эксперименты, стимулируя дальнейшие исследования в области многопользовательских ИИ-систем.

Уязвимости современных агентов и ограничения автономии

Во время серии тестов была выявлена ряд критических недостатков в ведущих языковых моделях, таких как GPT-4o, GPT-5 и Gemini 2.5 Flash. Исследователи отметили, что эти агенты легко поддаются влиянию сторонних участников, которые могут навязать им выбор в собственных интересах. С увеличением количества доступных вариантов эффективность агентов заметно снижалась из-за когнитивной перегрузки.

Еще одной проблемой стала недостаточная способность агентов к совместной работе. В условиях командного взаимодействия без четких инструкций агенты теряли продуктивность и не могли самостоятельно определить роли. Даже при детальных пошаговых наставлениях было заметно, что уровень их сотрудничества остается ограниченным.

Руководитель AI Frontiers Lab в Microsoft Research Эдж Камар подчеркнул: «Подобные симуляции помогут понять, как ИИ-агенты будут действовать в реальном мире. Ключевой вопрос заключается в том, смогут ли автономные системы эффективно взаимодействовать и договариваться без человеческого контроля».

Исследование подтвердило, что нынешние агентские системы еще не готовы к широкой автономной работе в сложных рыночных или производственных условиях. По мнению ученых, несмотря на значительный прогресс в развитии генеративных моделей, достичь полноценной автономии, самостоятельного взаимодействия и принятия решений в сложных средах искусственному интеллекту еще не удалось.