Спор Cloudflare и Perplexity: права AI-агентов на обход блокировок

Дискуссия вокруг взаимодействия искусственного интеллекта с открытыми веб-ресурсами приобрела новый размах после громкого обвинения компании Cloudflare в адрес поискового сервиса Perplexity в несанкционированном сборе информации. Этот случай стал еще одним этапом в глобальной дискуссии о правах и обязанностях AI-агентов и владельцев сайтов.

Об этом сообщает ProIT

Тестирование Cloudflare и реакция Perplexity

Cloudflare, известная своими сервисами защиты от бот-трафика, провела эксперимент: создала новый сайт с уникальным доменом, который никогда не индексировался ни одним роботом, и разместила в robots.txt явный запрет для ботов Perplexity. Однако, после обращения к Perplexity с запросом о контенте этого сайта, система предоставила ответ, который свидетельствовал о обходе ограничений.

Исследователи Cloudflare установили, что поисковик Perplexity использовал «универсальный браузер, который имитирует Google Chrome на macOS», когда его основной бот был заблокирован. Генеральный директор Cloudflare Мэтью Принс опубликовал результаты на X:

«Некоторые так называемые ‘респектабельные’ AI-компании действуют больше как северокорейские хакеры. Пора называть нарушителей и жестко блокировать их».

Дебаты в сообществе и позиция Perplexity

Многие пользователи защищали Perplexity, утверждая, что доступ AI к сайту по прямому запросу пользователя не является нарушением. В сетях X и Hacker News звучали аргументы: если человек имеет право просматривать контент сайта, то искусственный интеллект, действующий по его просьбе, не должен рассматриваться иначе. Один из пользователей на Hacker News заметил:

«Если я как человек делаю запрос на сайт, мне должны показать контент, почему же LLM, который действует вместо меня, должен быть в другой правовой категории, чем мой браузер Firefox?»

Perplexity в ответ заявила, что указанные боты принадлежат не компании, а стороннему сервису, которым она иногда пользуется. В своем блоге Perplexity подчеркнула:

«Разница между автоматизированным сканированием и получением данных по инициативе пользователя заключается не только в технических деталях — речь идет о том, кто имеет право на доступ к информации в открытом интернете».

В то же время Cloudflare сравнила поведение Perplexity с практиками OpenAI, которая, по их словам, соблюдает установленные правила и не обходит блокировки в robots.txt. OpenAI также внедряет новый стандарт Web Bot Auth, который позволяет криптографически идентифицировать запросы от AI-агентов.

Вопрос становится актуальным на фоне растущей активности ботов в интернете. По данным свежего отчета Imperva, впервые в истории сети трафик от ботов превысил человеческий: более 50% трафика приходится на AI, из которых 37% — это вредоносные боты, включая массовое копирование контента и попытки несанкционированного входа.

Ранее сайты могли эффективно блокировать большинство нежелательных ботов с помощью решений вроде CAPTCHA или инструкций для Googlebot в файле robots.txt, что способствовало потоку трафика в пользу владельцев контента. Однако с ростом роли LLM ситуация меняется: по прогнозу Gartner, объемы классических поисковых запросов снизятся на 25% к 2026 году, поскольку пользователи все чаще взаимодействуют с сайтами через AI-агентов.

В сообществе ведутся споры: не навредят ли владельцы сайтов собственному бизнесу, блокируя таких агентов, ведь будущее онлайн-коммерции неразрывно связано с их развитием. В ответ на публикацию Cloudflare один из пользователей X отметил:

«Я ХОЧУ, чтобы Perplexity посещала любой публичный контент по моему запросу!»

В то же время другие подчеркивают, что владельцы сайтов заинтересованы в прямом трафике и доходах от рекламы, поэтому не хотят, чтобы Perplexity просто забирала их контент.

Скептики предупреждают: «агентный просмотр» остается сложной проблемой, и большинство владельцев ресурсов, вероятно, будут выбирать стратегию блокировки.