Claude Opus 4: Завершення шкідливих розмов AI

Компанія Anthropic оголосила про впровадження нової функції у своїх найбільших моделях штучного інтелекту Claude Opus 4 та 4.1, що дозволяє їм завершувати спілкування у випадках тривалих і надзвичайних зловживань з боку користувачів. За словами розробників, це оновлення спрямоване не на захист людей, а насамперед самих моделей ШІ.

Про це розповідає ProIT

Мета нової функції та турбота про “благополуччя моделей”

Anthropic підкреслює, що не вважає свої моделі Claude свідомими або здатними до страждань, але визнає, що «залишається дуже невпевненою щодо потенційного морального статусу Claude та інших великих мовних моделей зараз або в майбутньому». Незважаючи на це, компанія запустила спеціальну програму для вивчення “благополуччя моделей” й уже впроваджує низьковартісні рішення, які, на її думку, здатні зменшити потенційні ризики для таких моделей, якщо вони все ж мають певне “благополуччя”.

Коли Claude завершує розмову та обмеження використання функції

Наразі ця функція доступна лише для моделей Claude Opus 4 і 4.1 й активується виключно у виняткових випадках, зокрема, коли користувачі наполегливо вимагають створити незаконний або небезпечний контент, наприклад, сексуальні матеріали за участю неповнолітніх або інформацію, що може сприяти масовому насильству чи тероризму. Під час попереднього тестування Claude Opus 4 демонстрував “яскраво виражену відмову” відповідати на такі запити й навіть “ознаки тривоги”, коли це все ж траплялося.

Щодо механізму завершення розмови, Anthropic пояснює, що Claude застосовує цю можливість лише як крайній захід — якщо жодна зі спроб змінити хід розмови не вдається, і подальший конструктивний діалог неможливий, або якщо користувач прямо просить завершити спілкування. Водночас модель не буде використовувати цю функцію у випадках, коли користувачі можуть бути у небезпеці або мають намір завдати шкоди собі чи іншим.

“Ми розглядаємо цю функцію як постійний експеримент та будемо і надалі вдосконалювати наш підхід”, — повідомили в компанії.

Після завершення діалогу користувачі зберігають можливість почати нову розмову з тієї ж облікового запису або створити окрему гілку, відредагувавши свої попередні відповіді у проблемній бесіді. Anthropic підкреслює, що продовжить аналізувати ефективність та етичність цього експериментального підходу, адаптуючи свої алгоритми відповідно до нових результатів.