Растущее число веб-сайтов принимает меры по блокировке трафика от AI-ботов, чтобы защитить свои материалы от использования в качестве обучающих данных и предотвратить перегрузку серверов нечеловеческими пользователями. Однако некоторые компании игнорируют эти запреты и продолжают сбор данных.
Анализ онлайн-трафика, проведенный BuiltWith, компанией, занимающейся веб-метриками, показывает, что число издателей, пытающихся предотвратить сбор контента AI-ботами для обучения моделей, резко возросло с июля.
5,6 миллиона веб-сайтов в настоящее время добавили GPTBot от OpenAI в список запрещенных в файле robots.txt, по сравнению с примерно 3,3 миллионами в начале июля 2025 года. Это увеличение составляет почти 70 процентов.
Веб-сайты могут сигнализировать краулерам, разрешено ли автоматизированным запросам извлекать информацию через записи в файлах robots.txt. Соблюдение этих директив является добровольным, но систематическое несоблюдение этих правил может привести к судебным разбирательствам, как это произошло в исковом заявлении Reddit против Anthropic ранее в этом году.
В частности, бот ClaudeBot от Anthropic также все чаще становится нежелательным гостем. ClaudeBot заблокирован на около 5,8 миллиона веб-сайтов, по сравнению с 3,2 миллионами в начале июля. Бот Claude-SearchBot, используемый для отображения сайтов в результатах поиска Claude, также сталкивается с растущим числом блокировок.
Ситуация аналогична и для AppleBot, который в настоящее время заблокирован на около 5,8 миллиона веб-сайтов, по сравнению с примерно 3,2 миллионами в июле.
Даже GoogleBot – который индексирует данные для поиска – сталкивается с растущим сопротивлением, возможно, потому что он также используется для AI Overviews, которые теперь отображаются в верхней части результатов поиска. BuiltWith сообщает, что 18 миллионов сайтов теперь блокируют этого бота, что также означает, что эти сайты не могут быть проиндексированы в Google Search.
По состоянию на июль, около половины новостных сайтов блокировали GPTBot, сообщила Arc XP, платформа для издателей, появившаяся из The Washington Post.
Anthropic, OpenAI и Google не сразу ответили на запросы о комментариях.
Анирудх Агарвал, генеральный директор OutreachX, консалтинговой компании в области веб-маркетинга, заявил в электронном письме, что примечательно, как часто GPTBot отклоняется, поскольку это свидетельствует о том, как издатели относятся к AI-краулерам. Если GPTBot от OpenAI блокируется, то такая же участь может постигнуть и любой другой AI-краулер.
Tollbit, компания, которая стремится помочь издателям монетизировать AI-трафик посредством платы за доступ для краулеров, сообщила в своем отчете за второй квартал 2025 года, что за последний год число сайтов, блокирующих AI-краулеров, увеличилось на 336 процентов.
Компания также отметила, что во втором квартале 2025 года 13,26 процента запросов игнорировали директивы robots.txt, по сравнению с 3,3 процентом в четвертом квартале 2024 года. Это предполагаемое поведение было оспорено в суде Reddit, как отмечалось выше, и в иске, поданном крупными новостными издателями против Perplexity в 2024 году.
Однако усилия по блокировке ботов усложнились, поскольку такие компании, как OpenAI и Perplexity, запустили браузеры, которые включают в себя их AI-модели. Согласно отчету Tollbit, «Последние AI-браузеры, такие как Perplexity Comet и инструменты разработки, такие как Firecrawl или Browserless, не отличимы от людей в журналах сайтов». Следовательно, Tollbit утверждает, что нечеловеческий трафик сайтов должен точно идентифицировать себя.
Для организаций, которые не являются крупными издателями, натиск AI-ботов может быть ошеломляющим. В октябре служба ведения блогов Bear сообщила о сбое, вызванном трафиком AI-ботов, о проблеме также сообщил бельгийский блогер Вутер Гроеневельд. А разработчик Дэвид Жерар, который ведет AI-скептический блог Pivot-to-AI, на прошлой неделе написал в Mastodon о том, как RationalWiki.org испытывает трудности с удержанием AI-ботов.
Уилл Аллен, вице-президент по продуктам в Cloudflare, сказал The Register в интервью на прошлой неделе, что компания видит «много людей, которые пытаются собрать большие объемы данных, игнорируя любые директивы robots.txt и другие попытки заблокировать их».
Трафик ботов, по словам Аллена, увеличивается, что само по себе не обязательно плохо. Но это означает, что количество атак увеличивается, и все больше людей пытаются обойти межсетевые экраны и ограничения контента.
Cloudflare летом запустила сервис под названием Pay per crawl, чтобы позволить владельцам контента предлагать автоматизированный доступ по цене.
Аллен не стал разглашать, какие сайты подписались на участие в бета-тестировании, но сказал, что новые экономические возможности были бы полезны.
«У нас есть несколько теорий о том, как это может развиваться», — сказал он. «Но, по сути, мы считаем, что будет много разных эволюционных путей, много разных экспериментов. Поэтому мы сохраняем довольно строгую закрытую бета-версию для нашего продукта Pay per crawl, чтобы действительно узнать, с обеих сторон рынка — людей, которые хотят получить доступ к контенту в больших масштабах, и людей, которые хотят защитить контент». ®
Автор – Thomas Claburn




