Большинство крупных поставщиков ИИ сканируют открытый интернет, собирая контент для улучшения своих чат-ботов, которые затем конкурируют с издателями за внимание интернет-пользователей. Однако вскоре многим ИИ-организациям, возможно, придется платить, поскольку спецификация Really Simple Licensing (RSL) достигла версии 1.0, предоставляя руководство по установлению машиночитаемых правил для краулеров.
“Сегодняшний выпуск RSL 1.0 знаменует собой переломный момент для открытого интернета”, — заявил Эккарт Вальтер, председатель технического управляющего комитета RSL, в заявлении. “RSL устанавливает ясность, прозрачность и основу для новых экономических моделей для издателей и ИИ-систем, гарантируя, что интернет-инновации могут продолжать процветать, опираясь на четкие, подотчетные права на контент”.
Представленный в сентябре, RSL является ответом на взрывной рост автоматизированного сбора контента, предназначенного для обучения моделей ИИ. Он призван дополнить Протокол исключения роботов [RFC 9309] — способ для веб-сайтов объявлять приемлемые методы взаимодействия через файл robots.txt.
Чтобы предотвратить использование своего контента для получения прибыли в моделях ИИ, издатели все чаще пытаются договориться о лицензионных соглашениях или блокировать сбор данных ботами. Операторы веб-сайтов обычно публикуют файл robots.txt в корне сайта, чтобы предоставлять указания автоматическому трафику. Однако соблюдение robots.txt является добровольным, и многие краулеры игнорируют эти директивы.
RSL опирается на спецификацию синдикации RSS и Протокол исключения роботов, предоставляя способ объявления требований для доступа и обработки контента, что может включать требование компенсации.
Спецификация включает XML-словарь для описания использования контента, лицензирования и юридических условий обслуживания. Документ RSL — функционально машиночитаемая лицензия — может быть интегрирован с другими веб-механизмами, включая robots.txt, HTTP-заголовки, RSS-каналы и HTML-элементы ссылок.
Он обеспечивает поддержку получения и принудительного исполнения лицензий через Open License Protocol (OLP), Crawler Authorization Protocol (CAP) и Encrypted Media Standard (EMS).
Релиз RSL 1.0 добавляет новые категории для элемента <permits>, такие как “ai-all”, “ai-input” и “ai-index”, для размещения более конкретных правил использования ИИ, например, разрешения поисковым системам индексировать контент, но не использовать его для приложений ИИ-поиска. Он также включает новую опцию платежа “вклад” для некоммерческих организаций, которые хотят получить “добросовестный денежный или натуральный вклад, поддерживающий разработку или обслуживание активов, или более широкую экосистему контента”.
Хотя RSL похож на Протокол исключения роботов в том смысле, что это не механизм технического контроля доступа, он предоставляет поддержку издателям и партнерам, которые выбирают реализацию платных стен и других барьеров.
Существуют различные технические варианты для обеспечения соблюдения предпочтений, выраженных в RSL и декларациях robots.txt, для ботов, которые не соблюдают их, например, сетевые барьеры. Но иногда требуется юридическое вмешательство, чтобы остановить неправомерное поведение. Плохие боты все еще могут пренебрегать или обходить требования RSL, но поддержка спецификацией лицензионных услуг, механизмов шифрования и механизмов аутентификации должна помочь издателям, которые решают оспаривать такое поведение в суде.
Спецификация RSL была одобрена инфраструктурными компаниями, такими как Cloudflare и Akamai, которые предлагают услуги “контентных платных дорог” для выставления счетов ИИ-ботам; издателями, такими как The Associated Press; социальными сетями, такими как Stack Overflow; и компанией, занимающейся микроплатежами, Supertab; и другими.
“Судя по тому, что мы видели за последние пару лет, и тому влиянию, которое боты-скрейперы оказали на эти публикации, будь то трафик на их сайты, потеря доходов от рекламы на этих сайтах и так далее, пришло время для нового предложения, которое принесет пользу этим публикациям и контенту, который они предоставляют”, — сказал директор по развитию Supertab Эрик Макафи в интервью The Register.
Supertab предоставляет платежный уровень для RSL и в течение последних двух кварталов проводил бета-тестирование с примерно дюжиной клиентов, хотя боты на самом деле пока не оплачивают счета. Макафи сказал, что тестирование направлено на проверку того, как будут проходить платежи, если боты действительно будут соблюдать правила.
“Цель состоит в том, чтобы в будущем иметь возможность предоставить счет этим LLM и объяснить: ‘Вот причина, вот следствие, и вот стоимость того, что произошло’. Но на данный момент мы просто собираем данные, чтобы показать, что происходит”, — сказал он.
Макафи сказал, что, хотя он не мог делиться информацией о конкретных клиентах, “данные впечатляют в том смысле, что они определенно оказывают влияние” с точки зрения воздействия ИИ-ботов на посещаемость сайтов и снижение доходов от рекламы. ®
Автор – Thomas Claburn




