Уязвимость ИИ-браузеров: атаки prompt injection остаются

OpenAI, разработчик браузера с искусственным интеллектом ChatGPT Atlas, заявил, что даже при внедрении новых мер безопасности полностью устранить риск атак prompt injection в настоящее время невозможно. Такие атаки позволяют злоумышленникам манипулировать действиями ИИ-агентов, используя скрытые инструкции на веб-страницах или в электронных письмах, что ставит под сомнение безопасность применения ИИ на открытых ресурсах интернета.

Об этом сообщает ProIT

Вызовы безопасности для ИИ-браузеров

В своем сообщении OpenAI подчеркнула, что

«Prompt injection, подобно мошенничеству и социальному инжинирингу в интернете, вряд ли когда-либо будет полностью ‘решена’».

Компания признает: режим «агента» в ChatGPT Atlas расширяет возможности для атак, повышая риск проникновения вредоносных инструкций. С момента запуска браузера в октябре 2024 года эксперты по кибербезопасности продемонстрировали, что даже простой текст в Google Docs может изменять поведение браузера. Аналогичные вызовы признают и другие игроки рынка, в частности компания Brave и разработчики Comet от Perplexity.

Национальный центр кибербезопасности Великобритании недавно предупредил, что атаки prompt injection против генеративных ИИ-приложений, вероятно, не удастся полностью нейтрализовать. Поэтому специалистам рекомендуется не только минимизировать риски, но и снижать влияние подобных атак.

Новые подходы к защите: автоматизированный атакующий от OpenAI

Для противодействия этим угрозам OpenAI внедрила цикл проактивного реагирования, который позволяет быстро выявлять новые стратегии атак еще до их использования в реальных условиях. Компания также использует собственного автоматизированного атакующего на базе больших языковых моделей, обученного методом подкрепления. Такой бот имитирует действия хакера, выявляя способы передачи вредоносных инструкций ИИ-агентам, и тестирует атаки в симуляции, анализируя реакции целевого ИИ и совершенствуя свои подходы.

В демонстрационном примере OpenAI показала, как автоматизированный атакующий разместил вредоносное письмо в почтовом ящике пользователя. ИИ-агент, сканируя входящие, выполнил скрытую инструкцию и отправил сообщение о увольнении вместо стандартного ответа. Однако после обновления безопасности «режим агента» успешно выявил попытку prompt injection и предупредил пользователя о угрозе.

Защитить ИИ-системы от таких атак полностью невозможно, однако OpenAI делает ставку на масштабное тестирование и быстрое внедрение исправлений, чтобы повысить устойчивость к реальным угрозам. Компания сотрудничает с другими экспертами для укрепления защиты Atlas еще до его официального запуска.

Эксперты по кибербезопасности, такие как Рами МаКкарти из компании Wiz, подчеркивают, что обучение на основе подкрепления — лишь один из элементов комплексной стратегии безопасности. Он советует ограничивать автономию ИИ-агентов, внедрять подтверждение действий пользователями и избегать предоставления слишком широкого доступа к чувствительным данным, таким как электронная почта или платежная информация. OpenAI также рекомендует давать агентам конкретные задачи вместо общих инструкций, чтобы снизить риски.

Несмотря на все усилия, эксперты отмечают, что в настоящее время браузеры с ИИ не предоставляют достаточной ценности, чтобы оправдать риски, связанные с их использованием в контексте доступа к важной информации. Вероятно, соотношение между пользой и риском таких продуктов еще будет пересмотрено в будущем.