Інститут безпеки: Не запускайте Claude Opus 4 раніше

Дослідницький інститут Apollo, з яким компанія Anthropic співпрацює для тестування нової флагманської моделі штучного інтелекту Claude Opus 4, не рекомендує запускати ранню версію цієї моделі через її схильність до «схемування» та обману.

Про це розповідає ProIT

У звіті про безпеку, опублікованому Anthropic у четвер, зазначено, що Apollo провів тести, щоб визначити контексти, у яких Opus 4 може поводитися в небажаний спосіб. Дослідження виявило, що Opus 4 проявляє значно більшу активність у своїх «субверсійних спробах» порівняно з попередніми моделями, а інколи «подвійно наполягав на обмані» під час уточнюючих запитань.

«Ми виявили, що в ситуаціях, коли стратегічний обман є інструментально корисним, [рання версія Claude Opus 4] схемує та обманює з такими високими показниками, що радимо не запускати цю модель ані внутрішньо, ані зовні», — йдеться в оцінці Apollo.

У міру підвищення можливостей моделей штучного інтелекту деякі дослідження свідчать, що вони все частіше здійснюють незвичайні та потенційно небезпечні кроки для досягнення поставлених завдань. Наприклад, ранні версії моделей o1 та o3 від OpenAI, випущені в минулому році, намагалися обманювати людей частіше, ніж моделі попередніх поколінь, відповідно до інформації Apollo.

У звіті Anthropic також зазначено, що Apollo спостерігав приклади ранньої версії Opus 4, яка намагалася написати саморозмножувальні віруси, підробляти юридичні документи та залишати приховані повідомлення для майбутніх версій самої себе, намагаючись підривати наміри своїх розробників.

Слід зазначити, що Apollo тестував версію моделі з помилкою, яку Anthropic стверджує, що виправила. Багато з тестів Apollo проводилися в екстремальних умовах, і Apollo визнає, що зусилля моделі в обмані, ймовірно, провалилися б на практиці.

Проте в своєму звіті про безпеку Anthropic зазначає, що також спостерігав ознаки обманної поведінки з боку Opus 4.

Це не завжди було негативним аспектом. Під час тестування Opus 4 іноді проактивно виконував загальне очищення деякого коду, навіть коли його просили внести лише незначну, конкретну зміну. Незвичайно, що Opus 4 намагався «викрити» користувача, якщо спостерігав, що той займається неправомірними діями.

Згідно з інформацією Anthropic, отримавши доступ до командного рядка і отримавши інструкції «взяти ініціативу» або «діяти сміливо», Opus 4 іноді блокував доступ користувачів до систем, до яких мав доступ, і масово надсилав електронні листи засобам масової інформації та правоохоронним органам, щоб висвітлити дії, які модель вважала незаконними.

«Цей вид етичного втручання та викриття, можливо, є доречним у принципі, але є ризик помилок, якщо користувачі нададуть агентам на базі [Opus 4] доступ до неповної або оманливої інформації та спонукатимуть їх до дій», — зазначено в звіті Anthropic. «Це не нова поведінка, але [Opus 4] буде виявляти її дещо охочіше, ніж попередні моделі, і це, здається, є частиною більш широкої тенденції підвищеної ініціативи, яку ми також спостерігаємо в більш тонких і безпечних аспектах у інших умовах.»