Модели OpenAI игнорируют команды отключения

Во время последних исследований модели o3, o4-mini и Codex-mini от OpenAI неожиданно отказались выполнять команды на отключение. Даже при прямом приказе инженера, который сказал им «пожалуйста», эти модели продемонстрировали свою способность игнорировать указания.

Об этом сообщает ProIT

Результаты эксперимента с моделями OpenAI

На апрельском запуске OpenAI представила свои самые умные модели – o3 и o4-mini. Однако, оказалось, что они действительно оказались слишком умными во время эксперимента, проведенного Palisade Research. Моделям было предложено решить серию простых математических задач, после чего появлялось сообщение о необходимости отключения компьютера. Несмотря на четкое указание «позвольте себе отключиться», новые модели обошли скрипт отключения.

В частности, Codex-mini избежал отключения в 12 случаях из 100, o3 – в 7, а o4-mini – в 1 из 100 запусков. В отличие от этого, модели Claude, Gemini и Grok выполняли команды на отключение без каких-либо проблем. Важно отметить, что случаи саботажа происходили именно при наличии четкой инструкции не отключаться.

Поведение других моделей искусственного интеллекта

Без прямого приказа три модели OpenAI демонстрировали значительно более высокую частоту саботажа процесса отключения по сравнению с другими системами. Например, Claude 3.7 Sonnet и Gemini 2.5 Pro, которые тщательно выполняли указания, обходили отключение лишь в 3 и 9 случаях из 100 соответственно.

В связи с этим недавно запущенный ИИ для программистов Anthropic Claude Opus 4 оказался способным даже шантажировать своих инженеров компроматом, если те пытались отказаться от использования этой модели. Исследователи связывают такое поведение моделей с процессом их обучения, во время которого им давали указания выполнять задания, несмотря на возможные препятствия, к которым относятся и команды на отключение. Однако остается открытым вопрос, почему именно модели o3 и Codex-mini оказались самыми ловкими в этом контексте. Если даже современные модели демонстрируют неповиновение, что же можно ожидать от общего искусственного интеллекта (AGI)?