Cloudflare превращает веб-сайты в «быстрый перекус» для AI agents

Cloudflare ии Markdown краулеры веб-контент theregister.com

Cloudflare предлагает издателям веб-контента новый способ сделать его более доступным для ИИ-краулеров. Вместо сложного HTML можно предлагать простой Markdown, что снижает вычислительные затраты для ИИ. Почему бы не предложить вкусный Markdown вместо жесткого HTML? — theregister.com

Cloudflare переключила свое внимание с возведения барьеров для ботов на приманку для них.

Ранее разработав механизм, заставляющий ИИ-краулеры платить за потребление контента веб-сайтов, сеть доставки контента теперь предлагает издателям веб-контента способ сделать его дешевле для ИИ-сервисов, собирающих контент сайта, путем преобразования HTML в Markdown — минималистичный язык разметки для представления текста с форматирующими символами таким образом, чтобы сохранить читаемость.

В записи в блоге директор по инжинирингу Cloudflare Селсо Мартинхо и вице-президент Уилл Аллен объясняют, что ИИ-краулерам и программным агентам, составляющим растущую долю веб-трафика, легче усваивать документы, отформатированные в Markdown, чем традиционные HTML-страницы.

Причина в том, что HTML-страницы часто содержат множество символов, описывающих форматирование и идентификаторы, не связанные с семантическим контентом, а обработка всех этих тегов и связанной разметки влечет за собой вычислительные затраты.

“Подача необработанного HTML-кода ИИ — это как платить за каждое слово при чтении упаковки, а не самого письма внутри”, — объясняют Мартинхо и Аллен. — “Простой ## О нас на странице в Markdown стоит примерно 3 токена; его HTML-эквивалент — <h2 class=”section-title” id=”about”>О нас</h2> — сжигает 12-15, и это еще до учета оберток <div>, навигационных панелей и тегов скриптов, которые заполняют каждую реальную веб-страницу и не имеют никакой семантической ценности”.

Чтобы сделать веб-контент более легким для усвоения ИИ-краулерами, сеть Cloudflare теперь может отвечать на запросы сети краулеров в формате Markdown, а не HTML. Для этого ИИ-краулер в рамках сетевого согласования отправляет заголовок согласования Accept с text/markdown в качестве одного из вариантов.

Если издатель сайта включает поддержку Markdown, сеть Cloudflare ответит заголовком ответа, отформатированным на этом языке, плюс заголовком x-markdown-tokens, который включает количество токенов. Это потенциально полезно для расчета того, поместится ли входящий контент в контекстное окно модели или его необходимо разбить на серию более мелких фрагментов.

Для веб-страницы, такой как запись в блоге Cloudflare, доставка в Markdown сокращает количество используемых токенов с 16 180 в HTML до 3 150 в Markdown, что составляет экономию в 80 процентов.

Опция Markdown, доступная для HTML, но не для других форматов документов, таких как PDF, дополняет другую недавно внедренную возможность — Политику сигналов контента компании.

Политика сигналов контента — это фреймворк для добавления машиночитаемых инструкций в файл robots.txt веб-сайта, реализация Протокола исключения роботов, который позволяет издателям сообщать, как они ожидают взаимодействия ботов и краулеров с их сайтом. Он существует для более точного определения предпочтений использования контента.

Политика сигналов контента сайта выражается в директиве robots.txt, которая объявляет три пары ключ-значение. Например:

User-Agent: *
Content-Signal: ai-train=no, search=yes, ai-input=no
Allow: /

Параметры указывают, может ли контент использоваться для обучения ИИ, для поиска ИИ и для ввода ИИ (использование после обучения, такое как генерация с дополненным поиском или заземление модели).

Как часть robots.txt, директивы Политики сигналов контента являются добровольными; они не представляют собой технические меры защиты.

По словам Мартинхо и Аллена, кодирующие агенты, такие как Claude Code и OpenCode, уже запрашивают Markdown в своих заголовках Accept. Издатели веб-сайтов теперь могут удовлетворять запросы автоматизированных клиентов, если они того пожелают. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: