ШІ-моделі навчилися деанонімізувати користувачів соцмереж із 90% точністю

|
ШІ-моделі навчилися деанонімізувати користувачів соцмереж із 90% точністю

Нові дослідження у сфері штучного інтелекту демонструють значне зростання ризиків для приватності користувачів соціальних мереж. Великі мовні моделі (LLM), розроблені у співпраці ETH Zurich та компанії Anthropic, показали здатність ідентифікувати особистості людей, що користуються анонімними акаунтами, з надзвичайно високою точністю.

Про це розповідає ProIT

LLM деанонімізують користувачів соцмереж: результати експериментів

У рамках експериментів дослідники виявили, що алгоритми штучного інтелекту можуть ідентифікувати особу користувача з точністю до 90%, а так званий показник «повноти» — частка успішно визначених особистостей — досягає 68%. Аналітики підкреслюють, що ці результати ставлять під сумнів ефективність псевдонімності як засобу захисту персональних даних онлайн.

“Дослідники попереджають про ризики для приватності та онлайн-дискусій.”

У дослідженні розкрито, що LLM можуть зіставляти акаунти та повідомлення користувачів на різних онлайн-платформах, аналізуючи як текстове наповнення, так і непрямі ознаки. Для перевірки цієї здатності вчені використали декілька відкритих наборів даних. Наприклад, експеримент із профілями Hacker News і LinkedIn дозволив знаходити збіги навіть після видалення прямих ідентифікаторів. Інший підхід базувався на аналізі мікроідентифікаторів, таких як уподобання або історія дій, подібно до того, як це робив знаменитий набір Netflix Prize.

Загальна схема деанонімізації користувачів за допомогою LLM. Джерело: ETH Zurich.

У тестах на Reddit виявилося, що аналіз участі в обговореннях, наприклад, фільмів у тематичних спільнотах, дозволяє ідентифікувати користувачів із точністю до 99% для окремих категорій.

Приклад ідентифікації анонімного акаунта на основі вилучених ознак. Джерело: ETH Zurich.

Нові виклики безпеці та рекомендації експертів

За словами одного з авторів роботи, Саймона Лермана, ключова інновація полягає у здатності LLM аналізувати неструктурований текст та поступово формувати повний цифровий портрет користувача. Це суттєво відрізняє сучасні методи від попередніх, які вимагали доступу до структурованих баз даних.

Дослідники закликають обмежувати масовий доступ до користувацьких даних через API та впроваджувати механізми моніторингу автоматизованого збору даних. Вони також пропонують розробникам ШІ інтегрувати інструменти, що унеможливлюють використання моделей для цілеспрямованої деанонімізації.

Якщо ці рекомендації не будуть реалізовані, попереджають автори, подібні інструменти можуть застосовуватись державними структурами для пошуку онлайн-критиків, компаніями — для створення гіпертаргетованої реклами, а зловмисниками — для масових шахрайських атак.