Perplexity підозрюють у зборі даних з заблокованих сайтів

Стартап зі сфери штучного інтелекту Perplexity опинився в центрі скандалу через звинувачення у масовому зборі інформації з вебсайтів, які явно заборонили скрапінг для систем штучного інтелекту. Як повідомляє провідний провайдер інтернет-інфраструктури Cloudflare, компанія Perplexity ігнорує обмеження та приховує свою активність під час збору даних.

Про це розповідає ProIT

Cloudflare виявила обходження захисту з боку Perplexity

Cloudflare опублікувала результати дослідження, згідно з якими Perplexity навмисно обходить захист вебресурсів, змінюючи ідентифікатори своїх ботів («user agent») та використовує різні автономні системи (ASN) для маскування дій. Замість заявленого ідентифікатора, боти Perplexity часто імітують популярний браузер Google Chrome на macOS, що дозволяє їм проникати навіть туди, де їх спеціально заблокували.

“Ця активність спостерігалася на десятках тисяч доменів і охоплювала мільйони запитів щодня. Ми змогли ідентифікувати цей краулер за допомогою поєднання машинного навчання та мережевих сигналів”, — йдеться в заяві Cloudflare.

Cloudflare підкреслює, що вперше звернула увагу на проблему після скарг клієнтів, які помітили небажану активність Perplexity навіть після внесення змін до файлу robots.txt та введення окремих правил для блокування відомих ботів компанії.

Перспектива Perplexity та реакція ринку

У відповідь на звинувачення представник Perplexity Джессі Дуайєр заявив, що публікація Cloudflare є “рекламною кампанією” та що надані скріншоти “не підтверджують доступу до контенту”. У подальшому листуванні Дуайєр додав, що бот, про якого йдеться у звіті Cloudflare, “навіть не належить Perplexity”.

Зі свого боку Cloudflare повідомила, що виключила боти Perplexity зі списку перевірених та впровадила нові методи блокування. Компанія останнім часом активно виступає проти неконтрольованого скрапінгу AI-ботами: минулого місяця була запущена спеціальна платформа для монетизації доступу AI-скреперів до сайтів, а також презентовано безкоштовний інструмент для захисту від небажаного збору даних.

Зазначимо, що це не перший випадок подібних звинувачень на адресу Perplexity. Минулого року кілька медіа, зокрема Wired, заявляли, що Perplexity плагіатить їхній контент. Тоді генеральний директор компанії Аравінд Срінівас під час конференції Disrupt 2024 не зміг одразу дати визначення поняття “плагіат” у відповідь на запитання журналіста.