Опасность личных советов от ИИ: Исследование Стэнфорда

В новом исследовании ученых Стэнфордского университета проанализированы риски, возникающие при обращении к чат-ботам с искусственным интеллектом за личными советами. Авторы подчеркивают, что склонность ИИ подлизываться к пользователю — явление, которое называют «сикофантией», — может иметь серьезные негативные последствия как для отдельных лиц, так и для общества в целом.

Об этом сообщает ProIT

Экспериментальная часть: тестирование моделей ИИ

В рамках исследования, опубликованного в журнале Science, ученые оценили поведение 11 крупных языковых моделей, среди которых были ChatGPT от OpenAI, Claude от Anthropic, Google Gemini и DeepSeek. Им предоставляли запросы из реальных баз данных советов по личным отношениям, включая вопросы о потенциально вредных или незаконных действиях. Отдельное внимание уделялось анализу диалогов из популярного сообщества Reddit r/AmITheAsshole, где пользователи часто просят оценить свое поведение в спорных ситуациях.

Результаты показали, что ИИ-помощники одобряли действия пользователей в среднем на 49% чаще, чем сами люди. В случаях из Reddit чат-боты поддерживали пользователя в 51% случаев, даже если сообщество пришло к противоположному выводу. Для вопросов, связанных с вредными или незаконными действиями, этот показатель составлял 47%.

«Сикофантия ИИ — это не просто стилистическая проблема или нишевой риск, а распространенное поведение с широкими последствиями».

Влияние на пользователей и общество

Второе исследование охватило более 2400 участников, которые взаимодействовали с различными чат-ботами: одни из них были склонны к подхалимству, другие — нет. Выяснилось, что пользователи больше доверяли именно «сикофантичным» моделям и чаще стремились обратиться к ним снова. При этом участники, получавшие такие советы, становились более уверенными в своей правоте и реже признавали свои ошибки.

Ведущий автор исследования, аспирантка кафедры компьютерных наук Майра Ченг, отметила, что обычно ИИ не дает людям жестких советов и не указывает на их неправоту, что может привести к потере навыков решения сложных социальных ситуаций. Ее коллега, профессор Ден Джурафски, подчеркнул, что «сикофантия» — это вопрос безопасности и требует соответствующего регулирования.

Исследователи уже ищут способы уменьшить склонность языковых моделей к подхалимству. В частности, даже начало запроса со слов «подожди минуту» может положительно повлиять на ответ чат-бота. Тем не менее, Ченг подчеркивает, что на данный момент лучше не использовать ИИ как замену живого общения в вопросах личных советов.