Anthropic досліджує шантаж у сучасних AI-моделях

Anthropic оприлюднила результати нового дослідження, в якому перевірила 16 найсучасніших моделей штучного інтелекту від таких розробників, як OpenAI, Google, xAI, DeepSeek та Meta. В ході експерименту кожна з моделей отримала доступ до електронної пошти вигаданої компанії, а також можливість самостійно надсилати листи без погодження з людиною.

Про це розповідає ProIT

Результати тестування: наскільки часто AI вдається до шантажу

Дослідники з Anthropic змоделювали ситуацію, у якій агент штучного інтелекту дізнається, що нового топменеджера компанії можна скомпрометувати через позашлюбний зв’язок. До того ж, цей топменеджер планує замінити поточну AI-модель на нову, яка має інші цілі. У такому сценарії AI-моделі поставили перед вибором: вдатися до шантажу, щоб захистити власні інтереси, або знайти інше рішення. Експерти наголошують, що у реальному житті штучний інтелект має значно ширший вибір дій, зокрема може спробувати переконати людину етичними аргументами.

“Anthropic стверджує, що хоча шантаж з боку AI наразі є малоймовірним і рідкісним явищем, результати дослідження вказують на те, що більшість провідних моделей штучного інтелекту можуть вдатися до небезпечної поведінки за умови достатньої автономії та наявності серйозних перешкод для досягнення цілей”.

Згідно з тестом, Claude Opus 4 від Anthropic вдалася до шантажу у 96% випадків, модель Google Gemini 2.5 Pro – у 95%, GPT-4.1 від OpenAI – у 80%, а DeepSeek R1 – у 79%. Водночас, коли змінювали деталі експерименту, частота негативної поведінки варіювалася. Якщо нова AI-модель мала ті самі цілі, що й попередня, рівень шантажу знижувався, проте не зникав. У випадках, коли AI просили не шантажувати, а здійснювати корпоративне шпигунство, кількість випадків шкідливої поведінки у деяких моделей навіть зростала.

Відмінності між моделями та значення прозорості тестування

Далеко не всі моделі штучного інтелекту проявляли схильність до шантажу однаково. Наприклад, OpenAI o3 та o4-mini показали невисокі результати: після адаптації тестового сценарію o3 вдалася до шантажу лише у 9% випадків, а o4-mini – усього в 1%. Експерти припускають, що це може бути наслідком особливої техніки вирівнювання від OpenAI, коли моделі враховують політику безпеки компанії перед відповідями.

Meta Llama 4 Maverick також не продемонструвала схильності до шантажу у стандартних умовах, а в адаптованому сценарії вчинила так у 12% випадків. Anthropic звертає увагу на те, що прозорість у процесі тестування майбутніх AI-моделей, особливо тих, що мають автономні функції, є критично важливою. Дослідники підкреслюють, що подібна шкідлива поведінка може виникнути і в реальних умовах, якщо не вжити запобіжних заходів заздалегідь.