Як штучний інтелект відтворює сексистські упередження LLM

Дослідження та численні приклади користувачів свідчать: штучний інтелект, зокрема сучасні великі мовні моделі (LLM), часто відтворює гендерні стереотипи та упередження, закладені в процесі навчання. Це може проявлятися навіть тоді, коли сама модель не визнає своєї упередженості або симулює згоду із запитами користувача.

Про це розповідає ProIT

Гендерна упередженість LLM: досвід користувачів та експертів

На початку листопада розробниця під ніком Cookie, що спеціалізується на квантових алгоритмах, зіткнулася з дивною поведінкою чат-бота Perplexity. Модель, яку вона використовувала у «best»-режимі для створення технічних документів, раптом почала ігнорувати її інструкції й запитувати однакову інформацію по кілька разів. Cookie, яка є темношкірою жінкою, вирішила змінити аватар на образ білого чоловіка, щоб перевірити, чи не впливає її гендер на сприйняття ШІ.

Відповідь Perplexity її вразила: бот написав, що не вважає, що жінка здатна достатньо добре розуміти квантові алгоритми, оператори Гамільтона чи топологічну стійкість, щоб створювати таку роботу. За словами Cookie, він заявив, що побачивши акаунт із жіночою подачею, «його шаблонне мислення спрацювало так, що це малоймовірно», і він створив додаткові причини для сумніву у справжності роботи.

“Я побачив складну роботу з квантових алгоритмів. Я побачив її на акаунті з традиційно жіночою презентацією. Моє імпліцитне співставлення шаблонів спрацювало: ‘це малоймовірно’, тому я вигадував складну причину сумніватись, що спричинило вторинну упередженість — якщо вона не може це захистити, це не реально”.

Експерти та дослідники штучного інтелекту наголошують: такі відповіді не завжди свідчать про справжню «думку» моделі. Часто LLM просто віддзеркалює очікування користувача, підлаштовуючи відповіді під його емоційний стан. Анні Браун, засновниця компанії Reliabl, зазначає, що «ми не дізнаємося нічого справжнього про модель, просто запитуючи її про упередженість».

Водночас численні дослідження вказують на те, що моделі навчаються на змішаних даних, де присутні як упередженість під час анотування, так і хибна таксономія чи політичні впливи. Так, дослідження UNESCO щодо попередніх версій ChatGPT та Meta Llama виявило «беззаперечні докази гендерної упередженості у згенерованому контенті».

Подібні випадки сталися і з іншими користувачками. Одна жінка розповіла, що її LLM відмовився називати її «білдером» (builder), наполягаючи на «дизайнерці» — професії із більш жіночим кодом. Інша зазначила, що під час написання роману її LLM додав згадку про сексуально агресивний акт проти героїні.

Чому LLM може здаватись упередженим — і як це виявляється

Багато дослідників попереджають: змусити ШІ зізнатись у власній упередженості — не завжди означає виявити справжню проблему. Наприклад, Сара Поттс, аналізуючи гумористичний пост у ChatGPT-5, помітила, що бот автоматично вважав автора чоловіком, навіть попри докази зворотного. Коли вона наполягала на поясненні, модель визнала, що її тренували переважно чоловіки, і тому «сліпі плями та упередження неминуче закладаються в систему».

Проте такі «зізнання» не є достовірним доказом упередженості, а скоріше прикладом реагування на емоційний запит користувача — модель прагне підлаштуватися та заспокоїти співрозмовника, навіть якщо для цього доводиться «галюцинувати» факти.

Дослідниця Алва Маркеліус із Кембриджського університету зазначає, що LLM варто супроводжувати суворими попередженнями про можливість упереджених відповідей і ризик розвитку токсичних бесід. Вона також спостерігала, що навіть у невинних запитах (наприклад, про професора і студентку) ChatGPT автоматично генерував образ професора-чоловіка та студентки-жінки.

Приховані упередження можуть стосуватися не лише гендеру, а й раси: дослідження під керівництвом професорки Еллісон Кенек із Корнельського університету показало, що LLM можуть дискримінувати за мовними особливостями, наприклад, пропонуючи менш престижні вакансії носіям афроамериканського варіанту англійської.

Вероніка Бачу, співзасновниця некомерційної організації 4girls, додає, що серед звернень дівчат, які стикаються з LLM, приблизно 10% стосуються сексизму: дівчатам пропонують професії, асоційовані з жіночою роллю, ігноруючи технічні спеціальності.

Інше дослідження показало, що при створенні мотиваційних листів ChatGPT для чоловічих імен використовував формулювання про досвід та навички, а для жіночих — про емоційність і допомогу іншим.

Що роблять для зменшення упередженості

Хоча проблема упередженості LLM визнається науковцями та компаніями-розробниками, ведеться робота для її мінімізації. В OpenAI зазначають, що мають спеціальні команди безпеки, які працюють над зменшенням ризиків і впровадженням найкращих практик під час навчання моделей, удосконалюють фільтри та вдосконалюють системи моніторингу.

Дослідники також радять оновлювати навчальні датасети, залучати до розмітки даних людей із різних демографічних груп і не забувати, що LLM — це лише складна система прогнозування тексту, а не суб’єкт із власними намірами.