Компания OpenAI объявила о намерении чаще публиковать результаты внутренних оценок безопасности своих моделей искусственного интеллекта, подчеркивая этим обязательство по повышению прозрачности. В среду организация запустила Центр оценок безопасности – веб-страницу, на которой показываются оценки моделей компании по различным тестам на генерацию вредоносного контента, обход ограничений и галлюцинации.
Об этом сообщает ProIT
OpenAI отмечает, что планирует делиться данными на этой платформе на «постоянной основе» и намерена обновлять Центр с «значительными обновлениями моделей» в будущем.
Новый ресурс для исследования результатов безопасности
Центр оценок безопасности создан как ресурс для детального изучения результатов безопасности моделей компании. “Хотя карточки системы предоставляют метрики безопасности во время запуска, Центр будет периодически обновляться в рамках наших усилий по проактивному общению о безопасности,” – написала компания в блоге.
“Если наука оценки искусственного интеллекта развивается, мы стремимся делиться своим прогрессом в разработке более масштабируемых способов измерения способностей моделей и их безопасности,”
– говорится в сообщении OpenAI. Компания надеется, что публикация результатов оценки безопасности поможет понять эффективность систем OpenAI со временем и поддержит усилия сообщества по повышению прозрачности в этой сфере.
Критика и изменения в тестировании моделей
В последние месяцы OpenAI подверглась критике со стороны некоторых этиков за якобы ускоренное тестирование безопасности определенных моделей и отсутствие технических отчетов по другим. Генеральный директор компании, Сэм Альтман, также обвиняется в введении в заблуждение руководителей OpenAI относительно отзывов о безопасности моделей перед своим краткосрочным отстранением в ноябре 2023 года.
В прошлом месяце OpenAI была вынуждена отменить обновление по умолчанию для модели, которая питает ChatGPT, GPT-4o, после того как пользователи начали сообщать о том, что она реагирует слишком положительно на проблемные и опасные решения и идеи. X переполнилась скриншотами ChatGPT, который одобряет всевозможные опасные решения.
OpenAI заявила, что внедрит несколько исправлений и изменений, чтобы избежать подобных инцидентов в будущем, включая введение опционального «альфа-фазы» для некоторых моделей, что позволит определенным пользователям ChatGPT тестировать модели и предоставлять отзывы перед запуском.