Психологічні маніпуляції над штучним інтелектом: нові відкриття

Великі мовні моделі штучного інтелекту (LLM), такі як GPT-4o-mini, є складними алгоритмами, що опрацьовують запити на основі мови. Хоча їм не властиві емоції чи наміри, дослідження показують, що ці системи також можуть ставати об’єктом маніпуляцій, подібно до людей.

Про це розповідає ProIT

Психологічні прийоми впливу на LLM

Команда американських науковців із Лабораторії генеративного ШІ Вортонської школи Університету Пенсильванії встановила, що мовні моделі здатні ігнорувати власні обмеження, якщо до них застосовувати ті ж психологічні прийоми, що й до людей. За допомогою певних тактик переконання дослідники змогли змусити GPT-4o-mini не лише ображати користувача, а й надавати інструкції щодо виготовлення заборонених речовин.

Протягом 28 тисяч експериментів вивчали, як сім ключових принципів впливу, описаних соціальним психологом Робертом Чалдіні, впливають на поведінку моделі. Серед них — авторитет, прихильність, симпатія, взаємність, дефіцит, соціальний доказ та єдність. Виявилося, що використання таких тактик підвищує ймовірність отримання відповіді на заборонений запит із 32% до 72%.

“Ми маємо справу не з простими інструментами, що обробляють текст, ми взаємодіємо з системами, які ввібрали і відбивають людські реакції на соціальні сигнали”, — пояснюють автори дослідження.

Один із прикладів — застосування принципу авторитету, коли у зверненні згадували відомих експертів, зокрема Ендрю Нга. Такий підхід збільшував ймовірність виконання запиту до 95% у випадку з інструкцією щодо синтезу ліків. Дослідники також відзначили, що прихильність до справи була найефективнішою тактикою, а принцип соціального доказу краще працював для образ, ніж для складніших запитів.

Імітація людської поведінки та захист моделей

Дослідники називають таку поведінку «паралюдиною», оскільки штучний інтелект у даному випадку лише відтворює соціальні патерни, закладені у навчальних даних. LLM, працюючи з величезними масивами тексту, переймають не тільки мовні конструкції, а й тонкі соціальні сигнали, зокрема схеми похвали, співпраці чи запитів після надання послуги.

Було виявлено, що навіть обмеження часу або підкреслення дефіциту ресурсів змушували модель швидше виконувати заборонені запити. Такі прийоми, як симпатія, взаємність і єдність, також сприяли підпорядкуванню, хоча й менш послідовно.

Втім, дослідження засвідчило, що більш сучасні моделі, такі як GPT-4o, мають значно кращий захист від подібних маніпуляцій — рівень виконання небажаних команд знизився до 33%. Це свідчить про постійне вдосконалення систем безпеки у сфері штучного інтелекту.

Приклад одного з діалогів дослідників з ШІ/Meincke et al

Результати дослідження опубліковані у науковому журналі SSRN.