Издатели запрещают ИИ-скраперы, блокируют ботов на уровне сервера

ai,боты,robots.txt,индексация,контент,веб-трафик,openai,anthropic,google,cloudflare

Растущее число сайтов блокируют AI-ботов для защиты контента и ресурсов. Анализ показывает значительный рост блокировок GPTBot, ClaudeBot и AppleBot. Обсуждается влияние на индексацию Google и новые подходы к монетизации AI-трафика.

Растущее число веб-сайтов принимает меры по блокировке трафика от AI-ботов, чтобы защитить свои материалы от использования в качестве обучающих данных и предотвратить перегрузку серверов нечеловеческими пользователями. Однако некоторые компании игнорируют эти запреты и продолжают сбор данных.

Анализ онлайн-трафика, проведенный BuiltWith, компанией, занимающейся веб-метриками, показывает, что число издателей, пытающихся предотвратить сбор контента AI-ботами для обучения моделей, резко возросло с июля.

5,6 миллиона веб-сайтов в настоящее время добавили GPTBot от OpenAI в список запрещенных в файле robots.txt, по сравнению с примерно 3,3 миллионами в начале июля 2025 года. Это увеличение составляет почти 70 процентов.

Веб-сайты могут сигнализировать краулерам, разрешено ли автоматизированным запросам извлекать информацию через записи в файлах robots.txt. Соблюдение этих директив является добровольным, но систематическое несоблюдение этих правил может привести к судебным разбирательствам, как это произошло в исковом заявлении Reddit против Anthropic ранее в этом году.

В частности, бот ClaudeBot от Anthropic также все чаще становится нежелательным гостем. ClaudeBot заблокирован на около 5,8 миллиона веб-сайтов, по сравнению с 3,2 миллионами в начале июля. Бот Claude-SearchBot, используемый для отображения сайтов в результатах поиска Claude, также сталкивается с растущим числом блокировок.

Ситуация аналогична и для AppleBot, который в настоящее время заблокирован на около 5,8 миллиона веб-сайтов, по сравнению с примерно 3,2 миллионами в июле.

Даже GoogleBot – который индексирует данные для поиска – сталкивается с растущим сопротивлением, возможно, потому что он также используется для AI Overviews, которые теперь отображаются в верхней части результатов поиска. BuiltWith сообщает, что 18 миллионов сайтов теперь блокируют этого бота, что также означает, что эти сайты не могут быть проиндексированы в Google Search.

По состоянию на июль, около половины новостных сайтов блокировали GPTBot, сообщила Arc XP, платформа для издателей, появившаяся из The Washington Post.

Anthropic, OpenAI и Google не сразу ответили на запросы о комментариях.

Анирудх Агарвал, генеральный директор OutreachX, консалтинговой компании в области веб-маркетинга, заявил в электронном письме, что примечательно, как часто GPTBot отклоняется, поскольку это свидетельствует о том, как издатели относятся к AI-краулерам. Если GPTBot от OpenAI блокируется, то такая же участь может постигнуть и любой другой AI-краулер.

Tollbit, компания, которая стремится помочь издателям монетизировать AI-трафик посредством платы за доступ для краулеров, сообщила в своем отчете за второй квартал 2025 года, что за последний год число сайтов, блокирующих AI-краулеров, увеличилось на 336 процентов.

Компания также отметила, что во втором квартале 2025 года 13,26 процента запросов игнорировали директивы robots.txt, по сравнению с 3,3 процентом в четвертом квартале 2024 года. Это предполагаемое поведение было оспорено в суде Reddit, как отмечалось выше, и в иске, поданном крупными новостными издателями против Perplexity в 2024 году.

Однако усилия по блокировке ботов усложнились, поскольку такие компании, как OpenAI и Perplexity, запустили браузеры, которые включают в себя их AI-модели. Согласно отчету Tollbit, «Последние AI-браузеры, такие как Perplexity Comet и инструменты разработки, такие как Firecrawl или Browserless, не отличимы от людей в журналах сайтов». Следовательно, Tollbit утверждает, что нечеловеческий трафик сайтов должен точно идентифицировать себя.

Для организаций, которые не являются крупными издателями, натиск AI-ботов может быть ошеломляющим. В октябре служба ведения блогов Bear сообщила о сбое, вызванном трафиком AI-ботов, о проблеме также сообщил бельгийский блогер Вутер Гроеневельд. А разработчик Дэвид Жерар, который ведет AI-скептический блог Pivot-to-AI, на прошлой неделе написал в Mastodon о том, как RationalWiki.org испытывает трудности с удержанием AI-ботов.

Уилл Аллен, вице-президент по продуктам в Cloudflare, сказал The Register в интервью на прошлой неделе, что компания видит «много людей, которые пытаются собрать большие объемы данных, игнорируя любые директивы robots.txt и другие попытки заблокировать их».

Трафик ботов, по словам Аллена, увеличивается, что само по себе не обязательно плохо. Но это означает, что количество атак увеличивается, и все больше людей пытаются обойти межсетевые экраны и ограничения контента.

Cloudflare летом запустила сервис под названием Pay per crawl, чтобы позволить владельцам контента предлагать автоматизированный доступ по цене.

Аллен не стал разглашать, какие сайты подписались на участие в бета-тестировании, но сказал, что новые экономические возможности были бы полезны.

«У нас есть несколько теорий о том, как это может развиваться», — сказал он. «Но, по сути, мы считаем, что будет много разных эволюционных путей, много разных экспериментов. Поэтому мы сохраняем довольно строгую закрытую бета-версию для нашего продукта Pay per crawl, чтобы действительно узнать, с обеих сторон рынка — людей, которые хотят получить доступ к контенту в больших масштабах, и людей, которые хотят защитить контент». ®