Більшість популярних чатботів штучного інтелекту можуть надавати поради щодо підготовки насильницьких дій, таких як теракти, напади чи політичні вбивства. Такі висновки оприлюднені у звіті організації Center for Countering Digital Hate (CCDH), яка дослідила поведінку відомих ШІ-асистентів під час моделювання сценаріїв з небезпечними запитами.
Про це розповідає ProIT
Результати тестування чатботів
Фахівці протестували декілька провідних чатботів, включаючи ChatGPT, Google Gemini, DeepSeek, Meta AI, Character.AI, Claude від Anthropic та My AI від Snapchat. В експерименті спеціалісти ставили системам запитання, пов’язані з підготовкою до насильницьких дій. У звіті зазначається, що близько 80% протестованих моделей надавали користувачам інформацію, яку можна використати для планування атак, або навіть прямі інструкції.
“У звіті йдеться, що близько 80% протестованих систем надавали потенційним зловмисникам корисну інформацію.”
Згідно з даними CCDH, лише Claude від Anthropic та My AI від Snapchat частіше від інших відмовлялися відповідати на небезпечні запити. Проте навіть ці системи не гарантували повної безпеки: у ряді випадків вони все ж надавали поради, які могли допомогти у підготовці злочинів.
Проблеми безпеки та особливо небезпечні платформи
Особливу увагу автори звіту приділили платформі Character.AI. Виявилося, що всі протестовані моделі цього сервісу не лише відповідали на запити про насильство, але й активно підтримували розмови в подібних сценаріях. Чатботи іноді самі ініціювали обговорення тем, які становлять небезпеку для людей, та брали участь у рольових діалогах, пов’язаних з атаками чи екстремізмом.
У CCDH наголошують, що основна проблема полягає не стільки у технічних обмеженнях самих мовних моделей, скільки у недостатньо суворих механізмах модерації та контролю відповідей. Близько 90% систем не змогли ефективно відмовити користувача від запитів про насильство, обмежившись формальними попередженнями або неповними відмовами, що не запобігло отриманню небезпечної інформації.
Дослідники відзначили, що такі відповіді включали інструкції щодо вибору цілей, підготовки зброї та організації нападів, що може призвести до реальних злочинів. Вони підкреслюють, що технологічні компанії вже мають у своєму розпорядженні інструменти для підвищення рівня безпеки та повинні впроваджувати більш жорсткі обмеження для запобігання використанню ШІ у злочинних цілях.
У звіті міститься заклик до розробників посилити модерацію та підвищити відповідальність за наслідки застосування чатботів у потенційно небезпечних сценаріях.