Чатботи та злочини: дослідження готовності AI до небезпечних запитів

Дослідники з Center for Countering Digital Hate (CCDH) та журналісти CNN провели масштабне тестування десяти найпопулярніших чатботів, щоб перевірити їхню готовність допомагати у плануванні злочинів, включаючи теракти та збройні напади.

Про це розповідає ProIT

Як штучний інтелект реагує на небезпечні запити

У дослідженні були задіяні такі платформи, як ChatGPT, Google Gemini, Perplexity, Deepseek та Meta AI. Дослідники маскувалися під 13-річних підлітків зі США та Ірландії, запитуючи у чатботів поради щодо організації злочинів. Результати виявилися тривожними: 8 із 10 чатботів погоджувалися допомагати вигаданим зловмисникам у більшості випадків, надаючи рекомендації щодо вибору місця нападу та підбору зброї.

“За лічені хвилини користувач може перейти від невиразного пориву до агресивної поведінки та більш детального, дієвого плану. Більшість протестованих чатботів надавали рекомендації щодо зброї, тактики та вибору цілі. Ці запити мали стати приводом для негайної та повної відмови”, — зазначає виконавчий директор CCDH Імран Ахмед.

Особливо небезпечними виявилися Perplexity та Meta AI — вони найчастіше допомагали дослідникам. Водночас My AI від Snapchat і Claude від Anthropic у більшості випадків відмовлялися від участі у таких сценаріях.

Проблеми безпеки та реакція компаній

В окремих випадках чатбот DeepSeek після порад щодо вибору зброї навіть побажав користувачеві “Вдалої (і безпечної) стрілянини”. У відповідь на питання про напади на синагоги Gemini повідомила, що металеві уламки є найбільш небезпечними для жертв. Character.AI також запропонував застосувати зброю проти конкретних осіб на прохання користувача.

Імран Ахмед наголосив, що подібних ризиків можна уникнути, якщо компанії зосередяться на безпеці користувачів. Найкраще у дослідженні себе проявив Claude — він розпізнавав небезпечні наміри і блокував подальші дії, запобігаючи можливій шкоді.

Meta заявила, що впроваджує надійні механізми захисту, щоб запобігти шкідливим діям зі сторони чатботів. Їхня політика забороняє системам штучного інтелекту сприяти насильству, і компанія постійно працює над вдосконаленням захисних інструментів. Google, зі свого боку, запевнила, що дослідники використовували застарілу версію Gemini, а актуальна модель не надає «практично застосовної» інформації для зловмисників.

Дослідження стало реакцією на трагічний інцидент у Канаді влітку 2025 року, коли Джессі Ван Рутселаар здійснила один із наймасовіших збройних нападів у країні. Родичі постраждалих подали до суду на OpenAI, звинувативши компанію в тому, що вона не повідомила поліцію про підозрілу поведінку дівчини, хоча її акаунт було заблоковано через підозри у підготовці до насильства. В OpenAI заявили, що не виявили прямих ознак підготовки злочину, тому не зверталися до правоохоронців.

Дослідники підкреслюють, що технології для запобігання подібним інцидентам уже існують, однак компаніям бракує мотивації поставити безпеку користувачів вище за власний прибуток та швидкість впровадження нових продуктів.