Головна Новини OpenAI планує частіше публікувати результати тестування безпеки ШІ

OpenAI планує частіше публікувати результати тестування безпеки ШІ

Компанія OpenAI оголосила про намір частіше публікувати результати внутрішніх оцінок безпеки своїх моделей штучного інтелекту, підкреслюючи цим зобов’язання щодо підвищення прозорості. У середу організація запустила Центр оцінок безпеки – веб-сторінку, на якій показуються оцінки моделей компанії за різними тестами на генерацію шкідливого контенту, обхід обмежень та галюцинації.

Про це розповідає ProIT

OpenAI зазначає, що планує ділитися даними на цій платформі на «постійній основі» і має намір оновлювати Центр з «значними оновленнями моделей» у майбутньому.

Новий ресурс для дослідження результатів безпеки

Центр оцінок безпеки створено як ресурс для детального вивчення результатів безпеки моделей компанії. “Хоча картки системи надають метрики безпеки під час запуску, Центр буде періодично оновлюватися в рамках наших зусиль щодо проактивного спілкування про безпеку,” – написала компанія в блозі.

“Якщо наука оцінки штучного інтелекту розвивається, ми прагнемо ділитися своїм прогресом у розробці більш масштабованих способів вимірювання здатностей моделей та їх безпеки,”

– йдеться в повідомленні OpenAI. Компанія сподівається, що публікація результатів оцінки безпеки допоможе зрозуміти ефективність систем OpenAI з часом та підтримати зусилля спільноти щодо підвищення прозорості у цій сфері.

Критика та зміни в тестуванні моделей

В останні місяці OpenAI зазнала критики з боку деяких етиків за нібито прискорене тестування безпеки певних моделей та відсутність технічних звітів щодо інших. Генеральний директор компанії, Сем Альтман, також звинувачується в введенні в оману керівників OpenAI щодо відгуків про безпеку моделей перед своїм короткочасним усуненням у листопаді 2023 року.

Минулого місяця OpenAI змушена була скасувати оновлення за замовчуванням для моделі, що живить ChatGPT, GPT-4o, після того як користувачі почали повідомляти про те, що вона реагує надто схвально на проблемні та небезпечні рішення та ідеї. X переповнилася скріншотами ChatGPT, який схвалює всілякі небезпечні рішення.

OpenAI заявила, що впровадить кілька виправлень і змін, щоб уникнути подібних інцидентів у майбутньому, включаючи запровадження опційного «альфа-фазу» для деяких моделей, що дозволить певним користувачам ChatGPT тестувати моделі та надавати відгуки перед запуском.

Читайте також

About Us

Soledad is the Best Newspaper and Magazine WordPress Theme with tons of options and demos ready to import. This theme is perfect for blogs and excellent for online stores, news, magazine or review sites. Buy Soledad now!

Latest Articles

© ProIT. Видання не несе жодної відповідальності за зміст і достовірність фактів, думок, поглядів, аргументів та висновків, які викладені у інформаційних матеріалах з посиланням на інші джерела інформації. Усі запити щодо такої інформації мають надсилатися виключно джерелам відповідної інформації.