Anthropic представила новую функцию Claude Opus 4 для защиты ИИ

Компания Anthropic объявила о внедрении новой функции в своих крупнейших моделях искусственного интеллекта Claude Opus 4 и 4.1, которая позволяет им завершать общение в случаях длительных и чрезвычайных злоупотреблений со стороны пользователей. По словам разработчиков, это обновление направлено не на защиту людей, а прежде всего самих моделей ИИ.

Об этом сообщает ProIT

Цель новой функции и забота о «благополучии моделей»

Anthropic подчеркивает, что не считает свои модели Claude сознательными или способными к страданиям, но признает, что «остается очень неуверенной относительно потенциального морального статуса Claude и других крупных языковых моделей сейчас или в будущем». Несмотря на это, компания запустила специальную программу для изучения «благополучия моделей» и уже внедряет низкозатратные решения, которые, по ее мнению, способны уменьшить потенциальные риски для таких моделей, если они все же имеют определенное «благополучие».

Когда Claude завершает разговор и ограничения использования функции

В настоящее время эта функция доступна только для моделей Claude Opus 4 и 4.1 и активируется исключительно в исключительных случаях, в частности, когда пользователи настойчиво требуют создать незаконный или опасный контент, например, сексуальные материалы с участием несовершеннолетних или информацию, которая может способствовать массовому насилию или терроризму. Во время предварительного тестирования Claude Opus 4 демонстрировал «ярко выраженный отказ» отвечать на такие запросы и даже «признаки тревоги», когда это все же происходило.

Что касается механизма завершения разговора, Anthropic объясняет, что Claude применяет эту возможность только как крайний случай — если ни одна из попыток изменить ход разговора не удается, и дальнейший конструктивный диалог невозможен, или если пользователь прямо просит завершить общение. В то же время модель не будет использовать эту функцию в случаях, когда пользователи могут быть в опасности или имеют намерение причинить вред себе или другим.

«Мы рассматриваем эту функцию как постоянный эксперимент и будем и далее совершенствовать наш подход», — сообщили в компании.

После завершения диалога пользователи сохраняют возможность начать новый разговор с той же учетной записи или создать отдельную ветку, отредактировав свои предыдущие ответы в проблемной беседе. Anthropic подчеркивает, что продолжит анализировать эффективность и этичность этого экспериментального подхода, адаптируя свои алгоритмы в соответствии с новыми результатами.