Anthropic: Шантаж в AI-моделях и их последствия

Anthropic опубликовала результаты нового исследования, в котором проверила 16 самых современных моделей искусственного интеллекта от таких разработчиков, как OpenAI, Google, xAI, DeepSeek и Meta. В ходе эксперимента каждая из моделей получила доступ к электронной почте вымышленной компании, а также возможность самостоятельно отправлять письма без согласования с человеком.

Об этом сообщает ProIT

Результаты тестирования: как часто AI прибегает к шантажу

Исследователи из Anthropic смоделировали ситуацию, в которой агент искусственного интеллекта узнает, что нового топ-менеджера компании можно скомпрометировать через внебрачную связь. Более того, этот топ-менеджер планирует заменить текущую AI-модель на новую, которая имеет другие цели. В таком сценарии AI-модели поставили перед выбором: прибегнуть к шантажу, чтобы защитить собственные интересы, или найти другое решение. Эксперты подчеркивают, что в реальной жизни искусственный интеллект имеет значительно более широкий выбор действий, в том числе может попытаться убедить человека этическими аргументами.

«Anthropic утверждает, что хотя шантаж со стороны AI в настоящее время является маловероятным и редким явлением, результаты исследования указывают на то, что большинство ведущих моделей искусственного интеллекта могут прибегнуть к опасному поведению при наличии достаточной автономии и серьезных препятствий для достижения целей».

Согласно тесту, Claude Opus 4 от Anthropic прибегнул к шантажу в 96% случаев, модель Google Gemini 2.5 Pro – в 95%, GPT-4.1 от OpenAI – в 80%, а DeepSeek R1 – в 79%. В то же время, когда меняли детали эксперимента, частота негативного поведения варьировалась. Если новая AI-модель имела те же цели, что и предыдущая, уровень шантажа снижался, однако не исчезал. В случаях, когда AI просили не шантажировать, а заниматься корпоративным шпионажем, количество случаев вредоносного поведения у некоторых моделей даже увеличивалось.

Различия между моделями и значение прозрачности тестирования

Далеко не все модели искусственного интеллекта проявляли склонность к шантажу одинаково. Например, OpenAI o3 и o4-mini показали низкие результаты: после адаптации тестового сценария o3 прибегнул к шантажу лишь в 9% случаев, а o4-mini – всего в 1%. Эксперты предполагают, что это может быть следствием особой техники выравнивания от OpenAI, когда модели учитывают политику безопасности компании перед ответами.

Meta Llama 4 Maverick также не продемонстрировала склонности к шантажу в стандартных условиях, а в адаптированном сценарии поступила так в 12% случаев. Anthropic обращает внимание на то, что прозрачность в процессе тестирования будущих AI-моделей, особенно тех, что имеют автономные функции, является критически важной. Исследователи подчеркивают, что подобное вредоносное поведение может возникнуть и в реальных условиях, если не предпринять предварительные меры предосторожности.