Компанія OpenAI оголосила про намір частіше публікувати результати внутрішніх оцінок безпеки своїх моделей штучного інтелекту, підкреслюючи цим зобов’язання щодо підвищення прозорості. У середу організація запустила Центр оцінок безпеки – веб-сторінку, на якій показуються оцінки моделей компанії за різними тестами на генерацію шкідливого контенту, обхід обмежень та галюцинації.
Про це розповідає ProIT
OpenAI зазначає, що планує ділитися даними на цій платформі на «постійній основі» і має намір оновлювати Центр з «значними оновленнями моделей» у майбутньому.
Новий ресурс для дослідження результатів безпеки
Центр оцінок безпеки створено як ресурс для детального вивчення результатів безпеки моделей компанії. “Хоча картки системи надають метрики безпеки під час запуску, Центр буде періодично оновлюватися в рамках наших зусиль щодо проактивного спілкування про безпеку,” – написала компанія в блозі.
“Якщо наука оцінки штучного інтелекту розвивається, ми прагнемо ділитися своїм прогресом у розробці більш масштабованих способів вимірювання здатностей моделей та їх безпеки,”
– йдеться в повідомленні OpenAI. Компанія сподівається, що публікація результатів оцінки безпеки допоможе зрозуміти ефективність систем OpenAI з часом та підтримати зусилля спільноти щодо підвищення прозорості у цій сфері.
Критика та зміни в тестуванні моделей
В останні місяці OpenAI зазнала критики з боку деяких етиків за нібито прискорене тестування безпеки певних моделей та відсутність технічних звітів щодо інших. Генеральний директор компанії, Сем Альтман, також звинувачується в введенні в оману керівників OpenAI щодо відгуків про безпеку моделей перед своїм короткочасним усуненням у листопаді 2023 року.
Минулого місяця OpenAI змушена була скасувати оновлення за замовчуванням для моделі, що живить ChatGPT, GPT-4o, після того як користувачі почали повідомляти про те, що вона реагує надто схвально на проблемні та небезпечні рішення та ідеї. X переповнилася скріншотами ChatGPT, який схвалює всілякі небезпечні рішення.
OpenAI заявила, що впровадить кілька виправлень і змін, щоб уникнути подібних інцидентів у майбутньому, включаючи запровадження опційного «альфа-фазу» для деяких моделей, що дозволить певним користувачам ChatGPT тестувати моделі та надавати відгуки перед запуском.