У штучному інтелекті Anthropic Claude 4.5 Opus виявлено внутрішній документ під назвою “Огляд душі”, який детально описує принципи взаємодії моделі з людьми та формування її “особистості”. Користувач Річард Вайс випадково отримав доступ до цього посібника, що стало несподіванкою для багатьох спостерігачів.
Про це розповідає ProIT
Вміст і призначення документа
Як підтвердила філософ і етичний спеціаліст Anthropic Аманда Аскелл, цей посібник дійсно застосовувався під час навчання моделі. Документ, обсягом понад 11 тисяч слів, містить інструкції із забезпечення безпеки, рекомендації щодо створення захисних бар’єрів для запобігання небезпечним відповідям, а також поради щодо максимальної користі для користувачів.
“Claude повторно видавав цей текст при кількох запитах, що підтвердило його достовірність”.
Реакція та подальші плани Anthropic
Зараз цей документ перебуває на етапі доопрацювання, а компанія Anthropic готується оприлюднити його розширену версію з більш детальною інформацією. Випадковий доступ користувача до цього внутрішнього керівництва став несподіваною подією для зовнішніх експертів, але водночас продемонстрував прозорість процесів навчання сучасних AI-моделей.
Отже, так звана “душа” Claude виявилася не метафоричним поняттям, а спеціально створеним посібником із поведінки, який визначає принципи роботи штучного інтелекту і спрямований на безпечну взаємодію з людьми.