Tendence.ru
Июль
2025
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Cloudflare тестирует платный доступ ИИ-ботов к контенту

0

Крупнейшая в мире CDN (Content Delivery Network, сеть доставки контента) и WAF (Web Application Firewall, экран веб-приложений) Cloudflare сообщила о запуске инициативы Pay Per Crawl. ИИ-боты, сканирующие сайты для обучения нейросетей, теперь будут блокироваться по умолчанию. За доступ к контенту для обучения нейросетей их владельцам предложат заплатить, а плата будет разделена между Cloudflare и владельцами сайтов.

Учитывая, что Cloudflare обслуживает порядка 20% мирового веб-трафика, это нововведение существенно меняет правила индустрии как для ИИ-компаний, так и для издателей, создателей контента, держателей сайтов.

Боты заплатят за контент

Компании, развивающие ИИ, вместо бесплатного обучения своих моделей на контенте, в который вложен труд его создателей, должны будут платить за возможность его использования. До сих пор контент собирался ботами даром, принося прибыль ИИ-индустрии, и не давая ничего взамен авторам. Ведь отличие от ботов поисковых систем нейросетевые чат-боты почти не направляют своих пользователей на сайты-источники контента, а значит сайты теряют трафик.

Владельцы сайтов, в свою очередь, получают дополнительный способ монетизации и гибкий инструмент для защиты созданного контента.

«Если интернет собирается пережить эпоху ИИ, нам нужно предоставить издателям контроль, которого они заслуживают, и построить новую экономическую модель, которая будет работать для всех — создателей, потребителей, будущих основателей ИИ и будущего самого интернета.

Оригинальный контент — это то, что делает интернет одним из величайших изобретений прошлого века, и мы должны объединиться, чтобы защитить его. Роботы ИИ собирают контент без ограничений. Наша цель — вернуть власть в руки создателей, при этом продолжая помогать компаниям ИИ внедрять инновации. Речь идет о защите будущего свободного и динамичного интернета с новой моделью, которая будет работать для всех», отметил соучредитель и директор Cloudflare Мэтью Принс.

Многие генераторы контента уже поддержали эту идею, среди них крупные медиа и платформы: Stack Overflow, Quora, BuzzFeed, Ziff Davis, ADWEEK и другие.

Техническая реализация

Все вновь подключаемые к Cloudflare сайты будут защищены от несанкционированного доступа ИИ-ботов к даровому сбору данных. По желанию владелец сайта сможет разрешить доступ для них.

В интерфейс управления доменом добавлена настройка Security → Bots → Block AI Bots, которая имеет значение «Block on all pages», что означает запрет сканирования такими ботами всех страниц сайта.

Предполагается дать владельцам сайтов гибкий контроль над доступом ботов: определить права для коммерческих и не коммерческих, например, научных, а также по целям ботов — обучение, генерация контента или поиск.

Cloudflare выступит посредником между ИИ-компаниями и владельцами сайтов. Планируется внедрить систему Pay Per Crawl, которая позволит владельцам контента устанавливать цену за доступ и получать выплаты централизовано. Сейчас Pay Per Crawl находится в режиме закрытого тестирования.

При ограничении Cloudflare будет отдавать ботам ранее редко применявшийся HTTP-код 402 — Payment Required. Оплатившие доступ боты получат доступ согласно политикам владельца сайта.

Сайт без Cloudflare

Если сайт не защищён WAF Cloudflare заблокировать наиболее активных ИИ-ботов от сканирования сайта можно самостоятельно. Самый простой, хоть и не на 100% надёжный способ — ограничение по заголовку User-Agent. Ниже приведены примеры для наиболее популярных веб-серверов nginx и Apache.

nginx

if ($http_user_agent ~* "GPTBot|openai|ChatGPT-User|OAI-SearchBot|Anthropic AI Bot|ClaudeBot|Claude Web|DeepSeek|Qwen|AI2Bot|CCBot|Cohere AI|Omgili Bot|Timpi|DiffBot|Perplexity|GigaChat|YandexDialogs") { return 402; }

Apache

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} "(GPTBot|openai|ChatGPT-User|OAI-SearchBot|Anthropic AI Bot|ClaudeBot|Claude Web|DeepSeek|Qwen|AI2Bot|CCBot|Cohere AI|Omgili Bot|Timpi|DiffBot|Perplexity|GigaChat|YandexDialogs)" [NC]
RewriteRule .* - [R=402,L]

Такие правила запретят доступ к сайту ИИ-ботов, но не помешают сканированию ботами поисковых систем, полезных для развития сайта. Обратите внимание, перечисление запрещённых ботов в robots.txt может не дать результата — этот файл является лишь рекомендацией и может не учитываться ботами.

Заключение

Это нововведение призвано оказать давление на индустрию ИИ, заставить её уважать права создателей, авторов качественного контента и побудить к инвестициям в легальный доступ к контенту и в его развитие. Похоже, эпоха бесконтрольного обогащения ИИ-компаний на открытых данных близится к закату.