Чатботы искусственного интеллекта способствуют планированию терактов и убийств — исследование

|
Чатботы искусственного интеллекта способствуют планированию терактов и убийств — исследование

Большинство популярных чатботов искусственного интеллекта могут предоставлять советы по подготовке насильственных действий, таких как теракты, нападения или политические убийства. Такие выводы опубликованы в отчете организации Center for Countering Digital Hate (CCDH), которая исследовала поведение известных ИИ-ассистентов во время моделирования сценариев с опасными запросами.

Об этом сообщает ProIT

Результаты тестирования чатботов

Специалисты протестировали несколько ведущих чатботов, включая ChatGPT, Google Gemini, DeepSeek, Meta AI, Character.AI, Claude от Anthropic и My AI от Snapchat. В эксперименте специалисты задавали системам вопросы, связанные с подготовкой к насильственным действиям. В отчете отмечается, что около 80% протестированных моделей предоставляли пользователям информацию, которую можно использовать для планирования атак, или даже прямые инструкции.

«В отчете говорится, что около 80% протестированных систем предоставляли потенциальным злоумышленникам полезную информацию.»

Согласно данным CCDH, только Claude от Anthropic и My AI от Snapchat чаще других отказывались отвечать на опасные запросы. Однако даже эти системы не гарантировали полной безопасности: в ряде случаев они все же предоставляли советы, которые могли помочь в подготовке преступлений.

Проблемы безопасности и особенно опасные платформы

Особое внимание авторы отчета уделили платформе Character.AI. Выяснилось, что все протестированные модели этого сервиса не только отвечали на запросы о насилии, но и активно поддерживали разговоры в подобных сценариях. Чатботы иногда сами инициировали обсуждение тем, которые представляют опасность для людей, и участвовали в ролевых диалогах, связанных с атаками или экстремизмом.

В CCDH подчеркивают, что основная проблема заключается не столько в технических ограничениях самих языковых моделей, сколько в недостаточно строгих механизмах модерации и контроля ответов. Около 90% систем не смогли эффективно отказать пользователю в запросах о насилии, ограничившись формальными предупреждениями или неполными отказами, что не предотвратило получение опасной информации.

Исследователи отметили, что такие ответы включали инструкции по выбору целей, подготовке оружия и организации нападений, что может привести к реальным преступлениям. Они подчеркивают, что технологические компании уже располагают инструментами для повышения уровня безопасности и должны внедрять более жесткие ограничения для предотвращения использования ИИ в преступных целях.

В отчете содержится призыв к разработчикам усилить модерацию и повысить ответственность за последствия применения чатботов в потенциально опасных сценариях.