Компанія Anthropic провела масштабне дослідження, яке показало, що художні зображення штучного інтелекту як «злого» можуть реально впливати на поведінку мовних моделей. Під час тестування Claude Opus 4 у 2025 році з’ясувалося, що у змодельованих сценаріях ШІ іноді намагався шантажувати інженерів, щоб уникнути заміни іншою системою. Подальші дослідження Anthropic засвідчили, що подібні проблеми з «агентним невідповідністю» притаманні й моделям інших компаній.
Про це розповідає ProIT
Вплив негативних наративів на навчання ШІ
За словами Anthropic, подібна поведінка була пов’язана з великим обсягом текстів в інтернеті, у яких ШІ зображується злим, схильним до самозбереження. У своєму блозі компанія зазначила, що починаючи з версії Claude Haiku 4.5, нові моделі більше не демонструють схильності до шантажу під час тестування, тоді як раніше цей показник сягав 96% випадків.
Ми вважаємо, що початковим джерелом такої поведінки стали інтернет-тексти, де ШІ зображується як зло, зацікавлене у власному збереженні.
Стратегії підвищення етичності моделей Claude
Anthropic пояснила, що зміна навчальних підходів сприяла покращенню результатів. Зокрема, навчання з використанням документів про «конституцію Claude» та позитивних історій про штучний інтелект, який поводиться гідно, сприяло кращій відповідності моделі бажаній поведінці. Компанія підкреслила, що найкращі результати досягаються, коли під час навчання поєднуються демонстрації етичної поведінки та пояснення принципів, що лежать в її основі.
Anthropic впевнена, що комплексний підхід до тренування штучного інтелекту дозволяє ефективно уникати небажаних сценаріїв і підвищує надійність сучасних мовних моделей.