Рост числа «AI bots» в интернете провоцирует гонку вооружений в сфере «hardware»

ии боты веб-трафик скрейпинг защита сайтов arstechnica.com

Издатели внедряют более агрессивную защиту от ИИ-ботов, которые уже составляют значительную долю веб-трафика, что ведет к гонке вооружений в Интернете. — arstechnica.com

Вирусный виртуальный помощник OpenClaw, ранее известный как Moltbot, а до этого Clawdbot, является символом более широкой революции, которая может кардинально изменить функционирование Интернета. Вместо места, населенного преимущественно людьми, веб-сеть в скором времени может быть захвачена автономными ИИ-ботами.

Новый отчет, измеряющий активность ботов в сети, а также связанные с ним данные, которыми WIRED поделилась инфраструктурная компания Akamai, показывает, что ИИ-боты уже составляют значительную долю веб-трафика. Результаты также проливают свет на развивающуюся гонку вооружений, поскольку боты применяют хитроумные тактики для обхода защитных систем веб-сайтов.

«В будущем большая часть Интернета будет представлена бот-трафиком», — говорит Тошит Панграхи, соучредитель и генеральный директор TollBit, компании, отслеживающей активность веб-скрейпинга и опубликовавшей новый отчет. «Это не просто проблема авторского права, в Интернете появляется новый посетитель».

Большинство крупных веб-сайтов пытаются ограничить контент, который боты могут собирать и использовать для обучения ИИ-систем. (Материнская компания WIRED, Condé Nast, а также другие издатели, в настоящее время судятся с несколькими ИИ-компаниями по обвинениям в нарушении авторских прав, связанных с обучением ИИ.)

Однако растет и другой вид скрейпинга веб-сайтов, связанный с ИИ. Многие чат-боты и другие ИИ-инструменты теперь могут получать информацию в реальном времени из сети и использовать ее для улучшения своих выходных данных. Это может включать актуальные цены на товары, расписания кинотеатров или сводки последних новостей.

По данным Akamai, трафик ботов, связанных с обучением, неуклонно растет с прошлого июля. Тем временем глобальная активность ботов, собирающих веб-контент для ИИ-агентов, также находится на подъеме.

«ИИ меняет веб, каким мы его знаем», — говорит Роберт Блюмоф, технический директор Akamai, в интервью WIRED. «Последующая гонка вооружений определит будущий облик, ощущения и функциональность веба, а также основы ведения бизнеса».

,

По оценкам TollBit, в четвертом квартале 2025 года один из каждых 31 посещений веб-сайтов их клиентов приходился на ИИ-скрейпинг-бота. В первом квартале эта цифра составляла всего один из 200. Компания сообщает, что в четвертом квартале более 13 процентов запросов ботов обходили robots.txt — файл, который некоторые веб-сайты используют для указания страниц, которых боты должны избегать. TollBit утверждает, что доля ИИ-ботов, игнорирующих robots.txt, выросла на 400 процентов со второго по четвертый квартал прошлого года.

TollBit также сообщил об увеличении на 336 процентов числа веб-сайтов, пытающихся блокировать ИИ-ботов за последний год. Панграхи говорит, что методы скрейпинга становятся все более изощренными, поскольку сайты пытаются контролировать доступ ботов к своему контенту. Некоторые боты маскируются, выдавая свой трафик за обычный веб-браузер или отправляя запросы, имитирующие обычное взаимодействие человека с веб-сайтами. Исследование TollBit отмечает, что поведение некоторых ИИ-агентов в настоящее время почти неотличимо от человеческого веб-трафика.

TollBit продает инструменты, которые владельцы веб-сайтов могут использовать для взимания платы с ИИ-скрейперов за доступ к их контенту. Другие фирмы, включая Cloudflare, предлагают аналогичные инструменты. «Любой, кто полагается на человеческий веб-трафик — начиная с издателей, но по сути все — будет затронут», — говорит Панграхи. «Нужен более быстрый способ программного обмена ценностями между машинами».

WIRED попытался связаться с 15 компаниями, занимающимися ИИ-скрейпингом, упомянутыми в отчете TollBit, для получения комментариев. Большинство не ответили или не были доступны. Несколько компаний заявили, что их ИИ-системы стремятся соблюдать технические границы, установленные веб-сайтами для ограничения скрейпинга, но отметили, что такие ограничения часто бывают сложными и трудными для соблюдения.

,

Ор Ленхнер, генеральный директор Bright Data, одной из крупнейших в мире компаний по веб-скрейпингу, говорит, что боты его компании не собирают закрытую информацию. Bright Data ранее была привлечена к судебной ответственности Meta* и X за предполагаемый неправомерный сбор контента с их платформ. (Meta позже отозвала свой иск, а федеральный судья в Калифорнии отклонил иск, поданный X.)

Каролис Стасюлявичюс, представитель другой упомянутой компании, ScrapingBee, сообщил WIRED: «ScrapingBee работает на одном из основных принципов Интернета: открытый веб предназначен для доступности. Общедоступные веб-страницы по своей сути читаемы как людьми, так и машинами».

Oxylabs, еще одна компания по скрейпингу, заявила в анонимном заявлении, что ее боты не имеют «доступа к контенту за логинами, платными стенами или аутентификацией. Мы требуем, чтобы клиенты использовали наши услуги только для доступа к общедоступной информации, и мы обеспечиваем соблюдение стандартов на всей нашей платформе».

Oxylabs добавила, что существует множество законных причин для скрейпинга веб-контента, в том числе для целей кибербезопасности и проведения журналистских расследований. Компания также утверждает, что контрмеры, используемые некоторыми веб-сайтами, не различают различные варианты использования. «Реальность такова, что многие современные системы защиты от ботов плохо различают вредоносный трафик и легитимный автоматизированный доступ», — говорит Oxylabs.

Помимо головной боли для издателей, войны за веб-скрейпинг создают новые бизнес-возможности. Отчет TollBit выявил более 40 компаний, которые сейчас продвигают ботов, способных собирать веб-контент для обучения ИИ или других целей. Рост поисковых систем на базе ИИ, а также инструментов, подобных OpenClaw, вероятно, способствуют увеличению спроса на эти услуги.

Некоторые фирмы обещают помочь компаниям находить контент для ИИ-агентов, а не блокировать его — стратегия, известная как генеративная оптимизация движка (GEO). «По сути, мы наблюдаем рост нового маркетингового канала», — говорит Ури Гафни, директор по развитию бизнеса Brandlight, компании, которая оптимизирует контент, чтобы он отображался в ИИ-инструментах.

«В 2026 году эта тенденция только усилится, и мы увидим развертывание этого как полноценного маркетингового канала, объединяющего поиск, рекламу, медиа и коммерцию», — говорит Гафни.

Эта статья изначально была опубликована на wired.com.

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:

Похожие новости: