Microsoft у співпраці з Університетом Аризони провела масштабне тестування сучасних моделей штучного інтелекту у симуляційному середовищі Magentic Marketplace, щоб оцінити їхню взаємодію, стійкість до маніпуляцій і здатність до співпраці.
Про це розповідає ProIT
Експериментальна платформа для тестування ШІ-агентів
Експериментальна платформа Magentic Marketplace, розроблена командою Microsoft Research, стала новим інструментом для дослідження поведінки агентських систем штучного інтелекту у змодельованих ринкових умовах. У цьому середовищі сотні цифрових агентів виконували завдання, що імітують реальні сценарії, як-от замовлення їжі чи участь у конкурентній боротьбі за вигідні угоди.
Відкритий вихідний код Magentic Marketplace дозволяє незалежним командам відтворювати та розвивати проведені експерименти, стимулюючи подальші дослідження у сфері багатокористувацьких ШІ-систем.
Вразливості сучасних агентів та обмеження автономії
Під час серії тестів було виявлено низку критичних недоліків у провідних мовних моделях, таких як GPT-4o, GPT-5 та Gemini 2.5 Flash. Дослідники відзначили, що ці агенти легко піддаються впливу сторонніх учасників, які можуть нав’язати їм вибір у власних інтересах. Зі збільшенням кількості доступних варіантів ефективність агентів помітно знижувалася через когнітивне перевантаження.
Ще однією проблемою стала недостатня здатність агентів до спільної роботи. В умовах командної взаємодії без чітких інструкцій агенти втрачали продуктивність і не могли самостійно визначити ролі. Навіть при детальних покрокових настановах було помітно, що рівень їхньої співпраці залишається обмеженим.
Керівник AI Frontiers Lab у Microsoft Research Едже Камар підкреслив: “Подібні симуляції допоможуть зрозуміти, як ШІ-агенти діятимуть у реальному світі. Ключове питання полягає в тому, чи зможуть автономні системи ефективно взаємодіяти та домовлятися без людського контролю”.
Дослідження підтвердило, що нинішні агентські системи ще не готові до широкої автономної роботи у складних ринкових чи виробничих умовах. На думку науковців, попри значний прогрес у розвитку генеративних моделей, досягти повноцінної автономії, самостійної взаємодії та ухвалення рішень у складних середовищах штучному інтелекту ще не вдалося.