Як OpenAI контролює безпеку повідомлень ChatGPT щодо загроз та насильства

|
Як OpenAI контролює безпеку повідомлень ChatGPT щодо загроз та насильства

Компанія OpenAI надала детальне роз’яснення щодо того, як здійснюється моніторинг повідомлень користувачів у ChatGPT для виявлення ознак насильства та загроз. У випадку підтверджених ризиків, особливо якщо йдеться про серйозні насильницькі наміри, дані можуть бути передані поліції. Про це йдеться у блозі компанії, де наголошується на багаторівневому підході до безпеки та захисту користувачів.

Про це розповідає ProIT

Особливості фільтрації та реакції на загрози

З початку 2023 року штучний інтелект ChatGPT навчають блокувати інструкції, які стосуються самопошкоджень, та перенаправляти розмову у підтримуюче русло. Якщо користувач повідомляє про намір завдати собі шкоди, асистент має проявити емпатію та запропонувати контакти спеціалізованих служб допомоги. Для користувачів зі США надається гаряча лінія 988, у Великій Британії — організація Samaritans, а для інших країн — портал findahelpline.com.

Захист неповнолітніх і реагування на серйозні погрози

Для неповнолітніх та незареєстрованих користувачів діє посилена система фільтрації: вона блокує ширший спектр потенційно небезпечних повідомлень і зображень. Під час тривалих діалогів ChatGPT може рекомендувати користувачам зробити паузу для збереження емоційного здоров’я. Окремо повідомлення з погрозами чи закликами до насильства над іншими людьми перевіряються спеціальною командою. Якщо ризик підтверджується, відповідні матеріали можуть бути передані правоохоронним органам.

“Повідомлення користувачів ChatGPT перевіряються на ознаки насильства та загроз. У разі підтвердження ризику компанія може передавати дані поліції”.

Водночас випадки, пов’язані із самопошкодженнями, не передаються поліції, щоб гарантувати конфіденційність користувачів. OpenAI підкреслює сувору заборону на використання ChatGPT для пропаганди самопошкоджень, створення зброї, планування нападів або будь-яких дій, які можуть загрожувати безпеці сервісу чи інших осіб. На сьогодні компанія не фіксувала випадків передачі листування користувачів правоохоронцям.