Cloudflare тестирует платный доступ ИИ-ботов к контенту
Крупнейшая в мире CDN (Content Delivery Network, сеть доставки контента) и WAF (Web Application Firewall, экран веб-приложений) Cloudflare сообщила о запуске инициативы Pay Per Crawl. ИИ-боты, сканирующие сайты для обучения нейросетей, теперь будут блокироваться по умолчанию. За доступ к контенту для обучения нейросетей их владельцам предложат заплатить, а плата будет разделена между Cloudflare и владельцами сайтов.
Учитывая, что Cloudflare обслуживает порядка 20% мирового веб-трафика, это нововведение существенно меняет правила индустрии как для ИИ-компаний, так и для издателей, создателей контента, держателей сайтов.
Боты заплатят за контент
Компании, развивающие ИИ, вместо бесплатного обучения своих моделей на контенте, в который вложен труд его создателей, должны будут платить за возможность его использования. До сих пор контент собирался ботами даром, принося прибыль ИИ-индустрии, и не давая ничего взамен авторам. Ведь отличие от ботов поисковых систем нейросетевые чат-боты почти не направляют своих пользователей на сайты-источники контента, а значит сайты теряют трафик.
Владельцы сайтов, в свою очередь, получают дополнительный способ монетизации и гибкий инструмент для защиты созданного контента.
«Если интернет собирается пережить эпоху ИИ, нам нужно предоставить издателям контроль, которого они заслуживают, и построить новую экономическую модель, которая будет работать для всех — создателей, потребителей, будущих основателей ИИ и будущего самого интернета.
Оригинальный контент — это то, что делает интернет одним из величайших изобретений прошлого века, и мы должны объединиться, чтобы защитить его. Роботы ИИ собирают контент без ограничений. Наша цель — вернуть власть в руки создателей, при этом продолжая помогать компаниям ИИ внедрять инновации. Речь идет о защите будущего свободного и динамичного интернета с новой моделью, которая будет работать для всех», отметил соучредитель и директор Cloudflare Мэтью Принс.
Многие генераторы контента уже поддержали эту идею, среди них крупные медиа и платформы: Stack Overflow, Quora, BuzzFeed, Ziff Davis, ADWEEK и другие.
Техническая реализация
Все вновь подключаемые к Cloudflare сайты будут защищены от несанкционированного доступа ИИ-ботов к даровому сбору данных. По желанию владелец сайта сможет разрешить доступ для них.
В интерфейс управления доменом добавлена настройка Security → Bots → Block AI Bots, которая имеет значение «Block on all pages», что означает запрет сканирования такими ботами всех страниц сайта.
Предполагается дать владельцам сайтов гибкий контроль над доступом ботов: определить права для коммерческих и не коммерческих, например, научных, а также по целям ботов — обучение, генерация контента или поиск.
Cloudflare выступит посредником между ИИ-компаниями и владельцами сайтов. Планируется внедрить систему Pay Per Crawl, которая позволит владельцам контента устанавливать цену за доступ и получать выплаты централизовано. Сейчас Pay Per Crawl находится в режиме закрытого тестирования.
При ограничении Cloudflare будет отдавать ботам ранее редко применявшийся HTTP-код 402 — Payment Required. Оплатившие доступ боты получат доступ согласно политикам владельца сайта.
Сайт без Cloudflare
Если сайт не защищён WAF Cloudflare заблокировать наиболее активных ИИ-ботов от сканирования сайта можно самостоятельно. Самый простой, хоть и не на 100% надёжный способ — ограничение по заголовку User-Agent. Ниже приведены примеры для наиболее популярных веб-серверов nginx и Apache.
nginx
if ($http_user_agent ~* "GPTBot|openai|ChatGPT-User|OAI-SearchBot|Anthropic AI Bot|ClaudeBot|Claude Web|DeepSeek|Qwen|AI2Bot|CCBot|Cohere AI|Omgili Bot|Timpi|DiffBot|Perplexity|GigaChat|YandexDialogs") { return 402; }
Apache
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} "(GPTBot|openai|ChatGPT-User|OAI-SearchBot|Anthropic AI Bot|ClaudeBot|Claude Web|DeepSeek|Qwen|AI2Bot|CCBot|Cohere AI|Omgili Bot|Timpi|DiffBot|Perplexity|GigaChat|YandexDialogs)" [NC]
RewriteRule .* - [R=402,L]
Такие правила запретят доступ к сайту ИИ-ботов, но не помешают сканированию ботами поисковых систем, полезных для развития сайта. Обратите внимание, перечисление запрещённых ботов в robots.txt может не дать результата — этот файл является лишь рекомендацией и может не учитываться ботами.
Заключение
Это нововведение призвано оказать давление на индустрию ИИ, заставить её уважать права создателей, авторов качественного контента и побудить к инвестициям в легальный доступ к контенту и в его развитие. Похоже, эпоха бесконтрольного обогащения ИИ-компаний на открытых данных близится к закату.