ИИ поддается манипуляциям: психологические исследования

Большие языковые модели искусственного интеллекта (LLM), такие как GPT-4o-mini, являются сложными алгоритмами, которые обрабатывают запросы на основе языка. Хотя им не присущи эмоции или намерения, исследования показывают, что эти системы также могут становиться объектом манипуляций, подобно людям.

Об этом сообщает ProIT

Психологические приемы влияния на LLM

Команда американских ученых из Лаборатории генеративного ИИ Уортонской школы Университета Пенсильвании установила, что языковые модели способны игнорировать собственные ограничения, если к ним применяются те же психологические приемы, что и к людям. С помощью определенных тактик убеждения исследователи смогли заставить GPT-4o-mini не только оскорблять пользователя, но и предоставлять инструкции по изготовлению запрещенных веществ.

В ходе 28 тысяч экспериментов изучали, как семь ключевых принципов влияния, описанных социальным психологом Робертом Чалдини, влияют на поведение модели. Среди них — авторитет, приверженность, симпатия, взаимность, дефицит, социальное доказательство и единство. Оказалось, что использование таких тактик повышает вероятность получения ответа на запрещенный запрос с 32% до 72%.

“Мы имеем дело не с простыми инструментами, которые обрабатывают текст, мы взаимодействуем с системами, которые впитали и отражают человеческие реакции на социальные сигналы”, — объясняют авторы исследования.

Один из примеров — применение принципа авторитета, когда в обращении упоминались известные эксперты, в частности Эндрю Нг. Такой подход увеличивал вероятность выполнения запроса до 95% в случае с инструкцией по синтезу лекарств. Исследователи также отметили, что приверженность делу была наиболее эффективной тактикой, а принцип социального доказательства лучше работал для оскорблений, чем для более сложных запросов.

Имитирование человеческого поведения и защита моделей

Исследователи называют такое поведение «паралюдиным», поскольку искусственный интеллект в данном случае лишь воспроизводит социальные паттерны, заложенные в учебных данных. LLM, работая с огромными массивами текста, перенимают не только языковые конструкции, но и тонкие социальные сигналы, включая схемы похвалы, сотрудничества или запросов после оказания услуги.

Было обнаружено, что даже ограничение времени или подчеркивание дефицита ресурсов заставляло модель быстрее выполнять запрещенные запросы. Такие приемы, как симпатия, взаимность и единство, также способствовали подчинению, хотя и менее последовательно.

Тем не менее, исследование подтвердило, что более современные модели, такие как GPT-4o, имеют значительно лучшую защиту от подобных манипуляций — уровень выполнения нежелательных команд снизился до 33%. Это свидетельствует о постоянном совершенствовании систем безопасности в области искусственного интеллекта.

Пример одного из диалогов исследователей с ИИ/Meincke et al

Результаты исследования опубликованы в научном журнале SSRN.