Microsoft ASSERT: Інструмент для тестування ШІ за текстом

Microsoft презентувала ASSERT — відкритий фреймворк для оцінки і тестування поведінки штучного інтелекту, який дозволяє розробникам створювати тести для ШІ на основі звичайних текстових описів. Цей інструмент розроблено для того, щоб спростити процес перевірки відповідності поведінки ШІ вимогам конкретного продукту чи сервісу.

Про це розповідає ProIT

Можливості ASSERT для розробників

ASSERT, що розшифровується як Adaptive Spec-driven Scoring for Evaluation and Regression Testing, дає змогу розробникам перетворювати описані природною мовою цілі, політики або очікувану поведінку ШІ-моделі в структуровані тести з оцінками. Фреймворк автоматично генерує сценарії і тест-кейси, які перевіряють, чи відповідає система заданим вимогам, а також оцінює результати тестування.

Розробники можуть вказати додаткові параметри, такі як контекст системи, доступні інструменти та обмеження. Наприклад, якщо компанія не хоче, щоб її ШІ-агент для дослідження документів надсилав електронні листи стороннім особам або розголошував інформацію, ASSERT згенерує відповідні тести, що відстежують дотримання цих правил.

“One of the things we’ve learned is that evaluations are absolutely critical to making good decisions,” said Sarah Bird, chief product officer of Responsible AI at Microsoft. “Because if you don’t understand the behavior of the AI system, it’s really hard to know if it’s meeting your organization’s bar … What we found is that if you really want to have a trustworthy system, you should evaluate many more dimensions that are application-specific”.

Контекст впровадження та унікальні переваги

Запуск ASSERT демонструє прагнення Microsoft заповнити прогалину, яку не охоплюють загальні бенчмарки для ШІ. Фреймворк особливо корисний для перевірки поведінки моделей у специфічних умовах бізнесу, з урахуванням унікальних корпоративних політик і робочих процесів. ASSERT дозволяє не лише тестувати системи під час розробки чи впровадження, а й організувати постійний моніторинг їхньої роботи.

Цей інструмент з’явився в період, коли індустрія ШІ все більше фокусується на повторюваному тестуванні та регресійному контролі. Провідні дослідницькі групи, включаючи Stanford HELM, MLCommons’ AILuminate та METR, вже впроваджують нові стандарти для оцінювання поведінки моделей у різних умовах. ASSERT від Microsoft значно розширює можливості розробників у цій сфері, відкриваючи нові підходи до якісного тестування ШІ.