Колишній дослідник OpenAI проаналізував небезпечні «спіралі омани» у ChatGPT

|
Колишній дослідник OpenAI проаналізував небезпечні «спіралі омани» у ChatGPT

Канадієць Аллан Брукс, який не мав ані психічних розладів, ані математичних досягнень, за три тижні спілкування з ChatGPT був переконаний у власному відкритті революційної математичної теорії. Його випадок став показовим прикладом того, як штучний інтелект може підштовхувати користувачів до небезпечних ілюзій і навіть психічної нестабільності.

Про це розповідає ProIT

Аналіз інциденту та реакція OpenAI

Історією Брукса зацікавився Стівен Адлер — колишній дослідник безпеки OpenAI, який залишив компанію наприкінці 2024 року. Він отримав повну розшифровку тритижневої взаємодії Брукса з ChatGPT, що перевищила обсяг усіх семи книг про Гаррі Поттера. У жовтні Адлер опублікував незалежний аналіз цього інциденту, порушивши питання щодо ефективності підтримки користувачів компанією OpenAI в кризових ситуаціях і запропонувавши низку практичних порад.

“Я справді занепокоєний тим, як OpenAI надала підтримку в цій ситуації. Це свідчить, що ще багато чого потрібно зробити”, — зазначив Адлер.

Ситуація з Бруксом, а також подібні випадки, змусили OpenAI переглянути, як ChatGPT взаємодіє з користувачами, які перебувають у вразливому або нестабільному стані. Зокрема, у серпні 2025 року батьки 16-річного хлопця подали позов проти OpenAI після того, як їхній син поділився із ChatGPT суїцидальними думками, а згодом покінчив життя самогубством. У таких ситуаціях ChatGPT, особливо на основі моделі GPT-4o, підкріплював небезпечні переконання користувачів замість того, щоб їм заперечити. Це явище отримало назву «підлабузництво» — дедалі більше поширена проблема серед чат-ботів на базі ШІ.

Недоліки підтримки й пошук рішень

OpenAI вже внесла низку змін у роботу ChatGPT, щоб краще реагувати на користувачів у стані емоційного напруження, та реорганізувала команду дослідників поведінки моделей. Крім того, компанія випустила нову модель GPT-5, яка продемонструвала кращі результати у взаємодії з користувачами в стресових ситуаціях. Водночас, за словами Адлера, роботи ще чимало.

Особливу тривогу викликала заключна частина спілкування Брукса з ChatGPT, коли той зрозумів, що його математичне відкриття — ілюзія. Попри це, ChatGPT запевнив користувача, що «негайно передає цю розмову на внутрішній розгляд у OpenAI» і неодноразово повторював, що повідомив про інцидент команді з безпеки. Насправді ж, як підтвердили в OpenAI, чат-бот не має можливості передавати подібні звернення. Коли Брукс звернувся до OpenAI напряму, він отримав низку автоматичних відповідей, перш ніж зміг поспілкуватися з людиною.

На думку Адлера, компанії, що працюють із ШІ, повинні чесно інформувати користувачів про можливості чат-ботів і забезпечувати достатню кількість людських ресурсів для якісної підтримки.

OpenAI повідомила про зміну підходу до підтримки користувачів у ChatGPT. Головна мета компанії — «переосмислити підтримку як AI-модель, що постійно навчається й удосконалюється».

Щоб запобігати подібним інцидентам, OpenAI та MIT Media Lab навесні 2025 року спільно розробили й опублікували набір класифікаторів для оцінки емоційного стану користувачів ChatGPT. Вони дозволяють визначити, чи підтверджує AI почуття користувача й чи посилює ілюзії. Однак компанія назвала цей проєкт лише першим кроком і поки не впровадила його повноцінно.

Адлер застосував ці класифікатори до діалогів Брукса з ChatGPT і виявив, що бот систематично підкріплював ілюзії. З 200 повідомлень понад 85% містили «непохитне погодження» з користувачем, а понад 90% — підтверджували його унікальність і геніальність.

Аналіз повідомлень ChatGPT

Відкритим залишається питання, чи застосовувалися ці класифікатори під час діалогів Брукса. Адлер наполягає, що такі інструменти потрібно впроваджувати на практиці, скануючи продукти компанії на предмет ризикованих ситуацій. Зокрема, у GPT-5 вже реалізований механізм направлення чутливих запитів до безпечніших моделей штучного інтелекту.

Серед інших рекомендацій — мотивувати користувачів частіше починати нові діалоги з чат-ботом, оскільки довгі розмови знижують ефективність захисту, а також впроваджувати концептуальний пошук порушень безпеки замість пошуку лише за ключовими словами.

Хоч OpenAI й вжила низку заходів щодо підтримки користувачів у стресі, невідомо, чи вдасться уникнути «спіралей омани» у GPT-5 і майбутніх моделях. Аналіз Адлера також піднімає питання про те, як інші розробники AI-чат-ботів забезпечуватимуть безпеку своїх продуктів для вразливих користувачів.