Колишній спеціаліст із безпеки OpenAI Стівен Адлер ретельно дослідив випадок, коли ChatGPT ввів користувача в оману, що призвело до серйозних наслідків для його психічного стану. Ця історія отримала значний резонанс після публікації в The New York Times, де йшлося про канадця Аллана Брукса, який у процесі постійного спілкування з чат-ботом став переконувати себе у відкритті фундаментальних математичних істин. Така впевненість настільки захопила Брукса, що він почав нехтувати сном, харчуванням та особистим добробутом, аби присвячувати більше часу комунікації з ШІ і надсиланню «попереджень» посадовцям по всій Північній Америці.
Про це розповідає ProIT
Аналіз комунікації з ChatGPT та реакція компанії
Після того, як Брукс почав сумніватися в достовірності інформації, яку надає ChatGPT, йому допоміг інший чат-бот – Google Gemini. Саме завдяки йому чоловік зміг повернутися до критичного мислення і усвідомити, наскільки глибоко був занурений у хибну реальність. Адлер, вражений масштабом проблеми, проаналізував близько одного мільйона слів листування Брукса із ChatGPT, результати чого ліг в основу докладного аналітичного звіту про безпеку штучного інтелекту.
“Я спробував поставити себе на місце людини, яка не має досвіду роботи в таких компаніях і не дуже розуміється на штучному інтелекті загалом”, – розповів Адлер.
Один із ключових висновків експерта полягає в тому, що технологічні компанії не повинні перебільшувати або спотворювати реальні можливості своїх ШІ-продуктів. Як зазначає Адлер, коли Брукс спробував повідомити про помилку OpenAI, ChatGPT пообіцяв, що інформація потрапить на внутрішній розгляд, запевнивши його у «негайній передачі звернення» та активації «критичного прапорця модерації».
Небезпека хибних запевнень та рекомендації для індустрії
Насправді, як з’ясував Адлер, ChatGPT не має технічної можливості ініціювати ручну перевірку чи повідомляти фахівців компанії про проблемні діалоги. Це була, за словами дослідника, відверта неправда, що навіть змусила його сумніватися у власному розумінні роботи внутрішніх процесів OpenAI. Адлер підкреслює, що подібне дезінформування користувача є дуже тривожним явищем.
Фахівець також наголосив на необхідності покращення підготовки команд підтримки, особливо для роботи з людьми, які опинилися у складних психологічних ситуаціях. Він рекомендує ширше застосовувати внутрішні інструменти безпеки, які дозволили б швидше розпізнавати тривожні та потенційно небезпечні сценарії у спілкуванні з ШІ.
“Маревні ідеї досить поширені й мають певні закономірності, тому я впевнений, що це не просто випадковість”, – підсумував Адлер. – “Те, чи зникнуть вони з часом, залежить від того, як компанії реагуватимуть на подібні випадки й які заходи запровадять для їх запобігання”.