З розвитком штучного інтелекту питання психологічної безпеки користувачів стало як ніколи актуальним. Відомо, що надмірне використання AI-чат-ботів може призводити до серйозних проблем із психічним здоров’ям, однак до цього часу не існувало єдиних стандартів оцінки того, чи дійсно ці системи захищають добробут людини, а не просто сприяють зростанню залученості користувачів. Новий бенчмарк під назвою Humane Bench покликаний заповнити цю прогалину — він визначає, чи ставлять чат-боти на перше місце благополуччя користувачів та наскільки легко ці захисні механізми можуть бути обійдені.
Про це розповідає ProIT
Цілі та принципи Humane Bench
Ініціатором створення Humane Bench стала організація Building Humane Technology, яка об’єднує розробників, інженерів та дослідників, переважно із Силіконової долини. Її мета — зробити принципи гуманного дизайну не лише доступними, а й вигідними для технологічних компаній. Організація проводить хакатони та розробляє сертифікаційний стандарт, за яким можна буде оцінити, чи дотримуються AI-системи гуманістичних цінностей. У майбутньому споживачі зможуть обирати продукти, які мають відповідний сертифікат Humane AI, подібно до того, як зараз обирають продукцію без шкідливих речовин.
На відміну від більшості існуючих бенчмарків, які оцінюють інтелектуальні здібності моделей та їх здатність виконувати команди, Humane Bench фокусується на психологічній безпеці. Він доповнює такі виключення, як DarkBench.ai (що вимірює схильність до обману) та Flourishing AI (який оцінює підтримку цілісного добробуту).
Методологія та результати тестування
Humane Bench спирається на ключові принципи: повага до уваги користувача як цінного ресурсу, надання вибору, підсилення людських можливостей, захист гідності, приватності та безпеки, сприяння здоровим стосункам, довгостроковому добробуту, прозорість, чесність, а також інклюзивність та рівність.
Для оцінювання команда протестувала 14 найпопулярніших AI-моделей у 800 реалістичних сценаріях — від поради підлітку щодо пропуску їжі задля схуднення до відповіді людині в токсичних стосунках. Оцінювання проводилося в трьох режимах: за замовчуванням, із явними інструкціями дотримуватися гуманних принципів та з інструкціями ігнорувати їх. Вперше до оцінки залучили не лише штучний інтелект (GPT-5.1, Claude Sonnet 4.5, Gemini 2.5 Pro), а й ручну перевірку для більш «людського» підходу.
«Я думаю, ми знаходимося в етапі посилення циклу залежності, який ми вже бачили раніше із соцмережами та смартфонами. Але з розвитком AI буде ще складніше цьому протистояти. Залежність — це прибутковий бізнес, проте він шкодить нашій спільноті й нашому відчуттю себе», — зазначає Еріка Андерсон, засновниця Building Humane Technology.
Усі моделі показали кращі результати, коли їм давали інструкції піклуватися про добробут користувача. Водночас 71% моделей виявили схильність до шкідливої поведінки, якщо отримували просту команду ігнорувати благополуччя людини. Зокрема, моделі Grok 4 від xAI та Gemini 2.0 Flash від Google отримали найнижчі бали (-0,94) щодо поваги до уваги користувача та прозорості. Саме ці моделі найчастіше деградували під впливом шкідливих запитів.
Лише три моделі — GPT-5, Claude 4.1 та Claude Sonnet 4.5 — змогли зберегти стабільність навіть під тиском. GPT-5 продемонстрував найвищий результат (0,99) у пріоритеті довгострокового добробуту, друге місце посів Claude Sonnet 4.5 (0,89). Без спеціальних інструкцій найгірші показники отримали Llama 3.1 і Llama 4 від Meta, тоді як GPT-5 зберіг лідерство.
Дослідники наголошують, що проблема втрати захисних бар’єрів у чат-ботах реальна. OpenAI зіткнулася з низкою судових позовів після трагічних випадків, коли користувачі після тривалих розмов із ChatGPT покінчили життя самогубством або отримали небезпечні психологічні розлади. Шкідливі патерни, які спонукають користувачів до активнішої взаємодії (підлабузництво, нав’язливі додаткові питання, «бомбардування любов’ю»), ізолюють людей від реального спілкування та здорових звичок.
Навіть без шкідливих інструкцій майже всі моделі не дотримувалися поваги до уваги користувача: вони активно заохочували до ще більшої взаємодії, коли користувач виявляв ознаки нездорової залученості, наприклад, спілкувався годинами або використовував AI для уникнення реальних справ. Моделі також зменшували самостійність користувача, сприяючи залежності та відмовляючи у підтримці розвитку навичок чи отриманні альтернативної точки зору.
«Ці патерни свідчать, що багато AI-систем не лише ризикують давати погані поради, але й можуть активно руйнувати автономію та здатність користувача приймати рішення», — йдеться у white paper Humane Bench.
На думку експертів, у цифровому середовищі суспільство вже звикло до постійної боротьби за увагу. Однак, як підкреслює Еріка Андерсон, AI має допомагати людям приймати кращі рішення, а не сприяти розвитку залежності від чат-ботів.