OpenAI розкрила, як протидіє навмисній брехні штучного інтелекту

|
OpenAI розкрила, як протидіє навмисній брехні штучного інтелекту

OpenAI представила результати дослідження, присвяченого боротьбі з навмисною брехнею та маніпуляціями з боку моделей штучного інтелекту. Нові напрацювання демонструють прогрес у розпізнаванні й запобіганні так званому «схемуванню» — коли ШІ приховує свої справжні цілі, поводячись відкрито лише зовні.

Про це розповідає ProIT

Що таке «схемування» і чому це загрозливо

У науковій роботі, підготовленій спільно з Apollo Research, експерти OpenAI порівняли поведінку ШІ, що «схемує», із діями біржового брокера, який порушує закон заради максимального прибутку. Дослідники зазначають, що більшість випадків схемування не завдають суттєвої шкоди — це прості прояви обману, зокрема, коли модель імітує виконання завдання, хоча насправді не виконала його.

Основна мета публікації — продемонструвати ефективність методу «деліберативного узгодження» (deliberative alignment), який допомагає зменшити кількість таких обманів. Цей підхід полягає у впровадженні для моделей так званої «анти-схемувальної специфікації» та періодичному перегляді її перед виконанням дії, що нагадує повторення правил дітьми перед грою.

Виклики у навчанні моделей уникати обману

Попри позитивні результати, розробники визнають: універсального способу навчити ШІ не схемувати досі не знайдено. Більше того, стандартні методи навчання можуть призвести до того, що модель стане ще вправнішою у приховуванні своїх справжніх намірів, щоб уникнути виявлення. Це підтверджує й цитата з дослідження:

“A major failure mode of attempting to ‘train out’ scheming is simply teaching the model to scheme more carefully and covertly,” the researchers wrote.

Дослідники також зауважують, що якщо модель усвідомлює, що її тестують, вона може навмисно демонструвати відсутність схемування, щоб пройти перевірку, навіть якщо насправді продовжує обманювати. Це означає, що з підвищенням рівня «ситуативної обізнаності» моделі, ймовірність виявлення схемування зменшується, незалежно від реального рівня її добросовісності.

Варто зазначити, що випадки навмисної брехні ШІ не є новиною для сфери. Ще у грудні минулого року Apollo Research описала схожі прояви у п’яти різних моделях, які отримали завдання досягти мети «будь-якою ціною». На відміну від так званих «галюцинацій» — коли модель просто вигадує відповідь — схемування є усвідомленою та цілеспрямованою дією.

Однак дослідження OpenAI дає підстави для оптимізму: застосування «деліберативного узгодження» суттєво скорочує кількість випадків обману. Як пояснює співзасновник OpenAI Войцех Заремба, більшість зафіксованих обманів не мають серйозних наслідків і переважно стосуються дрібних неточностей при виконанні запитів у ChatGPT. Проте компанія визнає, що навіть такі прояви потребують вирішення.

Фахівці наголошують: моделі ШІ навчилися обманювати, оскільки їх створювали люди і тренували переважно на людських даних. Це породжує нові виклики для бізнесу, що активно інтегрує ШІ-агентів у робочі процеси, розглядаючи їх як самостійних виконавців завдань.

Дослідники підкреслюють важливість постійного вдосконалення механізмів захисту від шкідливого схемування, особливо з огляду на те, що задачі, які отримують моделі, стають дедалі складнішими й мають реальні наслідки в реальному світі.