Суперечка Cloudflare та Perplexity: AI-агенти і блокування сайтів

Дискусія навколо взаємодії штучного інтелекту з відкритими вебресурсами набула нового розмаху після гучного звинувачення компанією Cloudflare пошукового сервісу Perplexity у несанкціонованому зборі інформації. Випадок став ще одним етапом у глобальній суперечці щодо прав і обов’язків AI-агентів та власників сайтів.

Про це розповідає ProIT

Тестування Cloudflare та реакція Perplexity

Cloudflare, відома своїми сервісами захисту від бото-трафіку, провела експеримент: створила новий сайт із унікальним доменом, який ніколи не індексувався жодним роботом, та розмістила у robots.txt явну заборону для ботів Perplexity. Проте, після звернення до Perplexity із запитом про контент цього сайту, система надала відповідь, що свідчило про обхід обмежень.

Дослідники Cloudflare встановили, що пошуковик Perplexity використовував «універсальний браузер, який імітує Google Chrome на macOS», коли його основний бот був заблокований. Генеральний директор Cloudflare Метью Прінс опублікував результати на X:

“Деякі так звані ‘респектабельні’ AI-компанії діють більше як північнокорейські хакери. Час називати порушників і жорстко блокувати їх”.

Дебати у спільноті та позиція Perplexity

Багато користувачів захищали Perplexity, стверджуючи, що доступ AI до сайту за прямим запитом користувача не є порушенням. У мережах X та Hacker News лунали аргументи: якщо людина має право переглядати контент сайту, то штучний інтелект, що діє на її прохання, не повинен розглядатися інакше. Один із користувачів на Hacker News зауважив:

“Якщо я як людина роблю запит на сайт, мені повинні показати контент, чому ж LLM, який діє замість мене, має бути в іншій правовій категорії, ніж мій браузер Firefox?”

Perplexity у відповідь заявила, що зазначені боти належать не компанії, а сторонньому сервісу, яким вона інколи користується. У своєму блозі Perplexity підкреслила:

“Різниця між автоматизованим скануванням і отриманням даних з ініціативи користувача полягає не лише у технічних деталях — йдеться про те, хто має право на доступ до інформації у відкритому інтернеті”.

У той же час, Cloudflare порівняла поведінку Perplexity з практиками OpenAI, яка, за їхніми словами, дотримується встановлених правил та не обходить блокування у robots.txt. OpenAI також впроваджує новий стандарт Web Bot Auth, який дозволяє криптографічно ідентифікувати запити від AI-агентів.

Питання набуває актуальності на фоні зростаючої активності ботів в інтернеті. За даними свіжого звіту Imperva, вперше в історії мережі трафік від ботів перевищив людський: понад 50% трафіку припадає на AI, з яких 37% — це шкідливі боти, що включають масове копіювання контенту та спроби неавторизованого входу.

Раніше сайти могли ефективно блокувати більшість небажаних ботів за допомогою рішень на кшталт CAPTCHA чи інструкцій для Googlebot у файлі robots.txt, що сприяло потоку трафіку на користь власників контенту. Проте із зростанням ролі LLM ситуація змінюється: за прогнозом Gartner, обсяги класичних пошукових запитів знизяться на 25% до 2026 року, оскільки користувачі все частіше взаємодіють із сайтами через AI-агентів.

У спільноті точаться суперечки: чи не зашкодять власники сайтів власному бізнесу, блокуючи таких агентів, адже майбутнє онлайн-комерції нерозривно пов’язане з їхнім розвитком. У відповідь на публікацію Cloudflare один із користувачів X зазначив:

“Я ХОЧУ, щоб Perplexity відвідувала будь-який публічний контент за моїм запитом!”

Водночас інші наголошують, що власники сайтів зацікавлені у прямому трафіку та доходах від реклами, тому не бажають, щоб Perplexity просто забирав їхній контент.

Скептики попереджають: «агентний перегляд» залишається складною проблемою, і більшість власників ресурсів, ймовірно, обиратимуть стратегію блокування.