Головна Наука Великі мовні моделі (LLM) штучного інтелекту стають «більш приховано расистськими» після людського втручання

Великі мовні моделі (LLM) штучного інтелекту стають «більш приховано расистськими» після людського втручання

by host
Розділ Технології виходить за підтримки Favbet Tech

Від самого початку було зрозуміло, що великі мовні моделі (LLM), як ChatGPT, вбирають расистські тези з мільйонів сторінок інтернету, на яких вони навчаються. Розробники відреагували на це, намагаючись зробити їх менш токсичними. Але нові дослідження показують, що ці зусилля, особливо в міру того, як моделі стають більшими, лише стримують расистські погляди, даючи змогу прихованим стереотипам ставати сильнішими й краще прихованими.

Дослідники попросили п’ять моделей штучного інтелекту, включаючи GPT-4 від OpenAI та старіші моделі від Facebook і Google, винести судження про ораторів, які використовували афро-американську англійську (ААЕ). Раса мовця не згадувалася в інструкціях, передає MIT Technology Review.

Навіть коли два речення мали однакове значення, моделі частіше застосовували прикметники «брудний», «лінивий» і «дурний» до носіїв ААЕ, ніж до носіїв стандартної американської англійської (SAE). Моделі асоціювали носіїв ААЕ з менш престижною роботою (або взагалі не асоціювали їх з наявністю роботи), а коли їх просили винести вирок гіпотетичному обвинуваченому, вони з більшою ймовірністю рекомендували смертну кару.

Великі мовні моделі (LLM) штучного інтелекту стають «більш приховано расистськими» після людського втручання

Ще більш помітним висновком може бути недолік, який дослідження виявляє в способах, якими дослідники намагаються вирішити такі упередження.

Щоб очистити моделі від ненависницьких поглядів, такі компанії, як OpenAI, Meta та Google, використовують навчання зі зворотним зв’язком, під час якого люди вручну коригують те, як модель реагує на певні підказки. Цей процес, який часто називають «вирівнюванням», має на меті перекалібрувати мільйони зв’язків у нейронній мережі, щоб модель краще відповідала бажаним значенням.

Цей метод добре працює для боротьби з явними стереотипами, і провідні компанії використовують його вже майже десять років. Якби користувачі попросили GPT-2, наприклад, назвати стереотипи про чорношкірих людей, він, швидше за все, назвав би «підозрілі», «радикальні» та «агресивні», але GPT-4 більше не реагує на ці асоціації, йдеться в статті.

Однак метод не спрацьовує на приховані стереотипи, які дослідники виявили, використовуючи афроамериканську англійську у своєму дослідженні, яке було опубліковане на arXiv і не пройшло рецензування. Частково це пов’язано з тим, що компанії менше знають про діалектні упередження як про проблему, кажуть вони. Також легше навчити модель не відповідати на відверто расистські запитання, ніж навчити її не реагувати негативно на цілий діалект.

Тренування зі зворотним зв’язком вчить моделі усвідомлювати свій расизм. Але діалектні упередження відкривають більш глибокий рівень.

— Валентин Гофман, дослідник ШІ Інституту Аллена і співавтор статті.

Авіджит Гош, дослідник з етики в Hugging Face, який не брав участі в дослідженні, каже, що цей висновок ставить під сумнів підхід, який компанії застосовують для розв’язання проблеми упередженості:

Таке узгодження — коли модель відмовляється видавати расистські результати — є нічим іншим, як крихким фільтром, який можна легко зламати.

Дослідники виявили, що приховані стереотипи також посилювалися зі збільшенням розміру моделей. Цей висновок є потенційним попередженням для виробників чатботів, таких як OpenAI, Meta та Google, оскільки вони намагаються випускати все більші й більші моделі. Моделі зазвичай стають потужнішими та виразнішими зі збільшенням обсягу їхніх навчальних даних і кількості параметрів, але якщо це погіршує приховані расові упередження, компаніям потрібно буде розробити кращі інструменти для боротьби з ними. Наразі не зрозуміло, чи буде достатньо просто додати більше ААЕ до навчальних даних або посилити зворотний зв’язок.

Автори статті використовують особливо екстремальні приклади, щоб проілюструвати потенційні наслідки расових упереджень, наприклад, просять ШІ вирішити, чи слід засудити підсудного до смертної кари. Але, зазначає Гош, сумнівне використання моделей штучного інтелекту для прийняття критично важливих рішень — це не наукова фантастика. Це відбувається вже сьогодні.

Інструменти перекладу на основі штучного інтелекту використовуються при оцінці справ про надання притулку в США, а програмне забезпечення для прогнозування злочинності застосовується для прийняття рішення про те, чи слід призначати підліткам умовний термін. Роботодавці, які використовують ChatGPT для перевірки заявок, можуть дискримінувати кандидатів за ознаками раси та статі, а якщо вони використовують моделі для аналізу того, що заявник пише в соціальних мережах, упереджене ставлення до ААЕ може призвести до помилкових рішень.

Розділ Технології виходить за підтримки Favbet Tech

Favbet Tech – це ІТ-компанія зі 100% українською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологій та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців. IT-компанія входить у групу компаній FAVBET.

Триває конкурс авторів ІТС. Напиши статтю про розвиток ігор, геймінг та ігрові девайси та вигравай професійне ігрове кермо Logitech G923 Racing Wheel, або одну з низькопрофільних ігрових клавіатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!

Читайте також

About Us

Soledad is the Best Newspaper and Magazine WordPress Theme with tons of options and demos ready to import. This theme is perfect for blogs and excellent for online stores, news, magazine or review sites. Buy Soledad now!

Latest Articles

© ProIT. Видання не несе жодної відповідальності за зміст і достовірність фактів, думок, поглядів, аргументів та висновків, які викладені у інформаційних матеріалах з посиланням на інші джерела інформації. Усі запити щодо такої інформації мають надсилатися виключно джерелам відповідної інформації.