ИИ модели деанонимизируют пользователей соцсетей

Новые исследования в области искусственного интеллекта демонстрируют значительное увеличение рисков для приватности пользователей социальных сетей. Большие языковые модели (LLM), разработанные в сотрудничестве ETH Zurich и компании Anthropic, показали способность идентифицировать личности людей, использующих анонимные аккаунты, с чрезвычайно высокой точностью.

Об этом сообщает ProIT

LLM деанонимизируют пользователей соцсетей: результаты экспериментов

В рамках экспериментов исследователи выяснили, что алгоритмы искусственного интеллекта могут идентифицировать личность пользователя с точностью до 90%, а так называемый показатель «полноты» — доля успешно определенных личностей — достигает 68%. Аналитики подчеркивают, что эти результаты ставят под сомнение эффективность псевдонимности как средства защиты персональных данных онлайн.

«Исследователи предупреждают о рисках для приватности и онлайн-дискуссий.»

В исследовании раскрыто, что LLM могут сопоставлять аккаунты и сообщения пользователей на различных онлайн-платформах, анализируя как текстовое содержание, так и косвенные признаки. Для проверки этой способности ученые использовали несколько открытых наборов данных. Например, эксперимент с профилями Hacker News и LinkedIn позволил находить совпадения даже после удаления прямых идентификаторов. Другой подход основывался на анализе микроидентификаторов, таких как предпочтения или история действий, подобно тому, как это делал знаменитый набор Netflix Prize.

Общая схема деанонимизации пользователей с помощью LLM. Источник: ETH Zurich.

В тестах на Reddit выяснилось, что анализ участия в обсуждениях, например, фильмов в тематических сообществах, позволяет идентифицировать пользователей с точностью до 99% для отдельных категорий.

Пример идентификации анонимного аккаунта на основе извлеченных признаков. Источник: ETH Zurich.

Новые вызовы безопасности и рекомендации экспертов

По словам одного из авторов работы, Саймона Лермана, ключевая инновация заключается в способности LLM анализировать неструктурированный текст и постепенно формировать полный цифровой портрет пользователя. Это существенно отличает современные методы от предыдущих, которые требовали доступа к структурированным базам данных.

Исследователи призывают ограничить массовый доступ к пользовательским данным через API и внедрить механизмы мониторинга автоматизированного сбора данных. Они также предлагают разработчикам ИИ интегрировать инструменты, которые делают невозможным использование моделей для целенаправленной деанонимизации.

Если эти рекомендации не будут реализованы, предупреждают авторы, подобные инструменты могут применяться государственными структурами для поиска онлайн-критиков, компаниями — для создания гипертаргетированной рекламы, а злоумышленниками — для массовых мошеннических атак.