Cloudflare переключила свое внимание с возведения барьеров для ботов на приманку для них.
Ранее разработав механизм, заставляющий ИИ-краулеры платить за потребление контента веб-сайтов, сеть доставки контента теперь предлагает издателям веб-контента способ сделать его дешевле для ИИ-сервисов, собирающих контент сайта, путем преобразования HTML в Markdown — минималистичный язык разметки для представления текста с форматирующими символами таким образом, чтобы сохранить читаемость.
В записи в блоге директор по инжинирингу Cloudflare Селсо Мартинхо и вице-президент Уилл Аллен объясняют, что ИИ-краулерам и программным агентам, составляющим растущую долю веб-трафика, легче усваивать документы, отформатированные в Markdown, чем традиционные HTML-страницы.
Причина в том, что HTML-страницы часто содержат множество символов, описывающих форматирование и идентификаторы, не связанные с семантическим контентом, а обработка всех этих тегов и связанной разметки влечет за собой вычислительные затраты.
“Подача необработанного HTML-кода ИИ — это как платить за каждое слово при чтении упаковки, а не самого письма внутри”, — объясняют Мартинхо и Аллен. — “Простой ## О нас на странице в Markdown стоит примерно 3 токена; его HTML-эквивалент — <h2 class=”section-title” id=”about”>О нас</h2> — сжигает 12-15, и это еще до учета оберток <div>, навигационных панелей и тегов скриптов, которые заполняют каждую реальную веб-страницу и не имеют никакой семантической ценности”.
Чтобы сделать веб-контент более легким для усвоения ИИ-краулерами, сеть Cloudflare теперь может отвечать на запросы сети краулеров в формате Markdown, а не HTML. Для этого ИИ-краулер в рамках сетевого согласования отправляет заголовок согласования Accept с text/markdown в качестве одного из вариантов.
Если издатель сайта включает поддержку Markdown, сеть Cloudflare ответит заголовком ответа, отформатированным на этом языке, плюс заголовком x-markdown-tokens, который включает количество токенов. Это потенциально полезно для расчета того, поместится ли входящий контент в контекстное окно модели или его необходимо разбить на серию более мелких фрагментов.
Для веб-страницы, такой как запись в блоге Cloudflare, доставка в Markdown сокращает количество используемых токенов с 16 180 в HTML до 3 150 в Markdown, что составляет экономию в 80 процентов.
Опция Markdown, доступная для HTML, но не для других форматов документов, таких как PDF, дополняет другую недавно внедренную возможность — Политику сигналов контента компании.
Политика сигналов контента — это фреймворк для добавления машиночитаемых инструкций в файл robots.txt веб-сайта, реализация Протокола исключения роботов, который позволяет издателям сообщать, как они ожидают взаимодействия ботов и краулеров с их сайтом. Он существует для более точного определения предпочтений использования контента.
Политика сигналов контента сайта выражается в директиве robots.txt, которая объявляет три пары ключ-значение. Например:
User-Agent: * Content-Signal: ai-train=no, search=yes, ai-input=no Allow: /
Параметры указывают, может ли контент использоваться для обучения ИИ, для поиска ИИ и для ввода ИИ (использование после обучения, такое как генерация с дополненным поиском или заземление модели).
Как часть robots.txt, директивы Политики сигналов контента являются добровольными; они не представляют собой технические меры защиты.
По словам Мартинхо и Аллена, кодирующие агенты, такие как Claude Code и OpenCode, уже запрашивают Markdown в своих заголовках Accept. Издатели веб-сайтов теперь могут удовлетворять запросы автоматизированных клиентов, если они того пожелают. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Thomas Claburn




