В искусственном интеллекте Anthropic Claude 4.5 Opus обнаружен внутренний документ под названием “Обзор души”, который подробно описывает принципы взаимодействия модели с людьми и формирование её “личности”. Пользователь Ричард Вайс случайно получил доступ к этому справочнику, что стало неожиданностью для многих наблюдателей.
Об этом сообщает ProIT
Содержание и назначение документа
Как подтвердила философ и этический специалист Anthropic Аманда Аскелл, этот справочник действительно использовался во время обучения модели. Документ объемом более 11 тысяч слов содержит инструкции по обеспечению безопасности, рекомендации по созданию защитных барьеров для предотвращения опасных ответов, а также советы по максимальной пользе для пользователей.
“Claude повторно выдавал этот текст при нескольких запросах, что подтвердило его достоверность”.
Реакция и дальнейшие планы Anthropic
Сейчас этот документ находится на этапе доработки, а компания Anthropic готовится опубликовать его расширенную версию с более детальной информацией. Случайный доступ пользователя к этому внутреннему руководству стал неожиданным событием для внешних экспертов, но в то же время продемонстрировал прозрачность процессов обучения современных AI-моделей.
Таким образом, так называемая “душа” Claude оказалась не метафорическим понятием, а специально созданным справочником по поведению, который определяет принципы работы искусственного интеллекта и направлен на безопасное взаимодействие с людьми.