Издатели запрещают ИИ-скраперы, блокируют ботов на уровне сервера

Thomas Claburn

09.12.2025

ai,боты,robots.txt,индексация,контент,веб-трафик,openai,anthropic,google,cloudflare

Растущее число сайтов блокируют AI-ботов для защиты контента и ресурсов. Анализ показывает значительный рост блокировок GPTBot, ClaudeBot и AppleBot. Обсуждается влияние на индексацию Google и новые подходы к монетизации AI-трафика.

Растущее число веб-сайтов принимает меры по блокировке трафика от AI-ботов, чтобы защитить свои материалы от использования в качестве обучающих данных и предотвратить перегрузку серверов нечеловеческими пользователями. Однако некоторые компании игнорируют эти запреты и продолжают сбор данных.

Анализ онлайн-трафика, проведенный BuiltWith, компанией, занимающейся веб-метриками, показывает, что число издателей, пытающихся предотвратить сбор контента AI-ботами для обучения моделей, резко возросло с июля.

5,6 миллиона веб-сайтов в настоящее время добавили GPTBot от OpenAI в список запрещенных в файле robots.txt, по сравнению с примерно 3,3 миллионами в начале июля 2025 года. Это увеличение составляет почти 70 процентов.

Веб-сайты могут сигнализировать краулерам, разрешено ли автоматизированным запросам извлекать информацию через записи в файлах robots.txt. Соблюдение этих директив является добровольным, но систематическое несоблюдение этих правил может привести к судебным разбирательствам, как это произошло в исковом заявлении Reddit против Anthropic ранее в этом году.

В частности, бот ClaudeBot от Anthropic также все чаще становится нежелательным гостем. ClaudeBot заблокирован на около 5,8 миллиона веб-сайтов, по сравнению с 3,2 миллионами в начале июля. Бот Claude-SearchBot, используемый для отображения сайтов в результатах поиска Claude, также сталкивается с растущим числом блокировок.

Ситуация аналогична и для AppleBot, который в настоящее время заблокирован на около 5,8 миллиона веб-сайтов, по сравнению с примерно 3,2 миллионами в июле.

Даже GoogleBot – который индексирует данные для поиска – сталкивается с растущим сопротивлением, возможно, потому что он также используется для AI Overviews, которые теперь отображаются в верхней части результатов поиска. BuiltWith сообщает, что 18 миллионов сайтов теперь блокируют этого бота, что также означает, что эти сайты не могут быть проиндексированы в Google Search.

По состоянию на июль, около половины новостных сайтов блокировали GPTBot, сообщила Arc XP, платформа для издателей, появившаяся из The Washington Post.

Anthropic, OpenAI и Google не сразу ответили на запросы о комментариях.

Анирудх Агарвал, генеральный директор OutreachX, консалтинговой компании в области веб-маркетинга, заявил в электронном письме, что примечательно, как часто GPTBot отклоняется, поскольку это свидетельствует о том, как издатели относятся к AI-краулерам. Если GPTBot от OpenAI блокируется, то такая же участь может постигнуть и любой другой AI-краулер.

Tollbit, компания, которая стремится помочь издателям монетизировать AI-трафик посредством платы за доступ для краулеров, сообщила в своем отчете за второй квартал 2025 года, что за последний год число сайтов, блокирующих AI-краулеров, увеличилось на 336 процентов.

Компания также отметила, что во втором квартале 2025 года 13,26 процента запросов игнорировали директивы robots.txt, по сравнению с 3,3 процентом в четвертом квартале 2024 года. Это предполагаемое поведение было оспорено в суде Reddit, как отмечалось выше, и в иске, поданном крупными новостными издателями против Perplexity в 2024 году.

Однако усилия по блокировке ботов усложнились, поскольку такие компании, как OpenAI и Perplexity, запустили браузеры, которые включают в себя их AI-модели. Согласно отчету Tollbit, «Последние AI-браузеры, такие как Perplexity Comet и инструменты разработки, такие как Firecrawl или Browserless, не отличимы от людей в журналах сайтов». Следовательно, Tollbit утверждает, что нечеловеческий трафик сайтов должен точно идентифицировать себя.

Для организаций, которые не являются крупными издателями, натиск AI-ботов может быть ошеломляющим. В октябре служба ведения блогов Bear сообщила о сбое, вызванном трафиком AI-ботов, о проблеме также сообщил бельгийский блогер Вутер Гроеневельд. А разработчик Дэвид Жерар, который ведет AI-скептический блог Pivot-to-AI, на прошлой неделе написал в Mastodon о том, как RationalWiki.org испытывает трудности с удержанием AI-ботов.

Уилл Аллен, вице-президент по продуктам в Cloudflare, сказал The Register в интервью на прошлой неделе, что компания видит «много людей, которые пытаются собрать большие объемы данных, игнорируя любые директивы robots.txt и другие попытки заблокировать их».

Трафик ботов, по словам Аллена, увеличивается, что само по себе не обязательно плохо. Но это означает, что количество атак увеличивается, и все больше людей пытаются обойти межсетевые экраны и ограничения контента.

Cloudflare летом запустила сервис под названием Pay per crawl, чтобы позволить владельцам контента предлагать автоматизированный доступ по цене.

Аллен не стал разглашать, какие сайты подписались на участие в бета-тестировании, но сказал, что новые экономические возможности были бы полезны.

«У нас есть несколько теорий о том, как это может развиваться», — сказал он. «Но, по сути, мы считаем, что будет много разных эволюционных путей, много разных экспериментов. Поэтому мы сохраняем довольно строгую закрытую бета-версию для нашего продукта Pay per crawl, чтобы действительно узнать, с обеих сторон рынка — людей, которые хотят получить доступ к контенту в больших масштабах, и людей, которые хотят защитить контент». ®

Автор – Thomas Claburn

Оригинал статьи

В тренде:

AI, Anthropic, Cloudflare, Google, OpenAI, robots.txt, боты, веб-трафик, индексация, контент

Дата-центр Google стоимостью 2 миллиарда долларов в Форт-Уэйне, Индиана, начал работу в режиме off-prem.
11.12.2025
Google запустила свой новый дата-центр стоимостью 2 миллиарда долларов в Форт-Уэйне, Индиана. Объект будет поддерживать сервисы Google, включая Карты и Gemini AI, а также облачных клиентов. Компания работает над решением вопросов сообщества и инвестирует в местную инфраструктуру. - 6/8
Налог на цифровые услуги в Великобритании принес £800 миллионов от мировых технологических гигантов
28.11.2025
Доход казначейства от налога на цифровые услуги превзошёл ранние прогнозы, однако сумма сбора остаётся лишь небольшой долей от общего оборота, который генерируют крупнейшие цифровые компании в Британии.
DJ Garman уронил мяч вместо баса на keynote AWS re:Invent
08.12.2025
Обзор ключевых анонсов AWS re:Invent 2024: от S3 с 50TB объектами до планов экономии на базах данных, которые ждали шесть лет. Разбор самых интересных и непонятных релизов от AWS.
Совет Дорсета отказывается от кастомизированной SAP в пользу перестройки на Oracle за £14 млн
01.12.2025
Совет Дорсета планирует заменить SAP ERP на Oracle Fusion стоимостью 14,2 млн фунтов за три года, модернизируя финансы, кадры и закупки. По опыту Бирмингема и Западного Сассекса переход к Oracle оказался дорогим и затянутым.

Издатели запрещают ИИ-скраперы, блокируют ботов на уровне сервера

В тренде:

Дата-центр Google стоимостью 2 миллиарда долларов в Форт-Уэйне, Индиана, начал работу в режиме off-prem.

Налог на цифровые услуги в Великобритании принес £800 миллионов от мировых технологических гигантов

DJ Garman уронил мяч вместо баса на keynote AWS re:Invent

Совет Дорсета отказывается от кастомизированной SAP в пользу перестройки на Oracle за £14 млн