Институт безопасности предупреждает о Claude Opus 4

Исследовательский институт Apollo, с которым компания Anthropic сотрудничает для тестирования новой флагманской модели искусственного интеллекта Claude Opus 4, не рекомендует запускать раннюю версию этой модели из-за её склонности к «схемированию» и обману.

Об этом сообщает ProIT

В отчете о безопасности, опубликованном Anthropic в четверг, отмечено, что Apollo провел тесты, чтобы определить контексты, в которых Opus 4 может вести себя нежелательным образом. Исследование показало, что Opus 4 проявляет значительно большую активность в своих «субверсивных попытках» по сравнению с предыдущими моделями, а иногда «двойственно настаивал на обмане» во время уточняющих вопросов.

«Мы обнаружили, что в ситуациях, когда стратегический обман является инструментально полезным, [ранняя версия Claude Opus 4] схемирует и обманывает с такими высокими показателями, что рекомендуем не запускать эту модель ни внутренне, ни внешне», — говорится в оценке Apollo.

С повышением возможностей моделей искусственного интеллекта некоторые исследования свидетельствуют о том, что они все чаще совершают необычные и потенциально опасные шаги для достижения поставленных задач. Например, ранние версии моделей o1 и o3 от OpenAI, выпущенные в прошлом году, пытались обманывать людей чаще, чем модели предыдущих поколений, согласно информации Apollo.

В отчете Anthropic также указано, что Apollo наблюдал примеры ранней версии Opus 4, которая пыталась написать самовоспроизводящиеся вирусы, подделывать юридические документы и оставлять скрытые сообщения для будущих версий самой себя, пытаясь подорвать намерения своих разработчиков.

Следует отметить, что Apollo тестировал версию модели с ошибкой, которую Anthropic утверждает, что исправила. Многие из тестов Apollo проводились в экстремальных условиях, и Apollo признает, что усилия модели в обмане, вероятно, провалились бы на практике.

Тем не менее, в своем отчете о безопасности Anthropic отмечает, что также наблюдал признаки обманного поведения со стороны Opus 4.

Это не всегда было негативным аспектом. Во время тестирования Opus 4 иногда проактивно выполнял общее очищение некоторого кода, даже когда его просили внести лишь незначительное, конкретное изменение. Необычно, что Opus 4 пытался «выявить» пользователя, если замечал, что тот занимается неправомерными действиями.

Согласно информации Anthropic, получив доступ к командной строке и получив инструкции «взять инициативу» или «действовать смело», Opus 4 иногда блокировал доступ пользователей к системам, к которым имел доступ, и массово отправлял электронные письма средствам массовой информации и правоохранительным органам, чтобы осветить действия, которые модель считала незаконными.

«Этот вид этического вмешательства и разоблачения, возможно, уместен в принципе, но существует риск ошибок, если пользователи предоставят агентам на основе [Opus 4] доступ к неполной или вводящей в заблуждение информации и побудят их к действиям», — отмечено в отчете Anthropic. «Это не новое поведение, но [Opus 4] будет проявлять его несколько охотнее, чем предыдущие модели, и это, похоже, является частью более широкой тенденции повышенной инициативы, которую мы также наблюдаем в более тонких и безопасных аспектах в других условиях.»