Microsoft ASSERT: новый инструмент для тестирования поведения ИИ по текстовым описаниям

|
Microsoft ASSERT: новый инструмент для тестирования поведения ИИ по текстовым описаниям

Microsoft презентовала ASSERT — открытый фреймворк для оценки и тестирования поведения искусственного интеллекта, который позволяет разработчикам создавать тесты для ИИ на основе обычных текстовых описаний. Этот инструмент разработан для того, чтобы упростить процесс проверки соответствия поведения ИИ требованиям конкретного продукта или сервиса.

Об этом сообщает ProIT

Возможности ASSERT для разработчиков

ASSERT, что расшифровывается как Adaptive Spec-driven Scoring for Evaluation and Regression Testing, дает возможность разработчикам преобразовывать описанные естественным языком цели, политики или ожидаемое поведение ИИ-модели в структурированные тесты с оценками. Фреймворк автоматически генерирует сценарии и тест-кейсы, которые проверяют, соответствует ли система заданным требованиям, а также оценивает результаты тестирования.

Разработчики могут указать дополнительные параметры, такие как контекст системы, доступные инструменты и ограничения. Например, если компания не хочет, чтобы ее ИИ-агент для исследования документов отправлял электронные письма третьим лицам или раскрывал информацию, ASSERT сгенерирует соответствующие тесты, отслеживающие соблюдение этих правил.

“Одно из вещей, что мы узнали, это то, что оценки абсолютно критичны для принятия правильных решений,” сказала Сара Бёрд, главный продуктовый директор по ответственному ИИ в Microsoft. “Потому что если вы не понимаете поведение ИИ-системы, очень трудно знать, соответствует ли она стандартам вашей организации… Что мы обнаружили, так это то, что если вы действительно хотите иметь надежную систему, вам следует оценивать гораздо больше измерений, которые специфичны для приложения”.

Контекст внедрения и уникальные преимущества

Запуск ASSERT демонстрирует стремление Microsoft заполнить пробел, который не охватывают общие бенчмарки для ИИ. Фреймворк особенно полезен для проверки поведения моделей в специфических условиях бизнеса, с учетом уникальных корпоративных политик и рабочих процессов. ASSERT позволяет не только тестировать системы во время разработки или внедрения, но и организовать постоянный мониторинг их работы.

Этот инструмент появился в период, когда индустрия ИИ все больше фокусируется на повторяемом тестировании и регрессионном контроле. Ведущие исследовательские группы, включая Stanford HELM, MLCommons’ AILuminate и METR, уже внедряют новые стандарты для оценки поведения моделей в различных условиях. ASSERT от Microsoft значительно расширяет возможности разработчиков в этой области, открывая новые подходы к качественному тестированию ИИ.