Новостные ресурсы блокируют архивацию своих страниц в Wayback Machine

Wayback Machine архивирование ии Fair Use новости интернет архив tomshardware.com

Многие крупные новостные издания блокируют краулер Wayback Machine от архивирования своих страниц, несмотря на то, что сами используют этот инструмент для своих репортажей. Их основная забота — то, что технологические компании, занимающиеся ИИ, нарушают fair use и обучают свои модели на общедоступных данных. — tomshardware.com

По сообщениям, многие новостные издания блокируют доступ Wayback Machine для архивирования своих страниц, по-видимому, из-за опасений, что компании, занимающиеся разработкой ИИ, злоупотребят политикой добросовестного использования (fair use) и будут обучать свои модели на снимках старых статей. Это грозит сокращением коллективного доступа общества к историческим новостным материалам, а также к другой критически важной информации, особенно в эпоху изобилия дезинформации, когда большие языковые модели ИИ (LLM) генерируют убедительные, но ложные ответы. Wired сообщает, что 23 крупных издания в настоящее время блокируют ia-archiverbot, широко используемый краулер Internet Archive, включая USA Today и The New York Times. По иронии судьбы, эти издания сами указывали, что используют Wayback Machine в своей журналистской работе.
Многие библиотеки и редакции газет раньше располагали богатыми хранилищами архивных томов, к которым люди обращались, чтобы получить представление об исторических записях. Но по мере того, как мир отказался от печатной журналистики в пользу удобства онлайн-газет, эти архивы больше не обновляются; мы вынуждены полагаться на онлайн-сервисы архивирования, такие как Wayback Machine, которые служат современным историческим реестром.
Было некоторое противодействие со стороны изданий по поводу архивирования, но судебная система установила, что действия Internet Archive являются законными и частью добросовестного использования. «Суды давно признали, что часто невозможно создать поисковый индекс без создания копий исходного материала», — заявила Electronic Frontier Foundation. Фонд также добавил: «Копирование служило трансформационной цели: оно обеспечивало обнаружение, исследование и новые идеи о творческих работах».
Можно утверждать, что газеты и издания сами могли бы заняться собственным архивированием, но в общественных интересах, чтобы ведение учета осуществлялось нейтральной третьей стороной. В конце концов, легко изменить онлайн-статьи, чтобы изменить запись, и хотя многие издания заслуживают доверия, некоторые из них также принадлежат крупным корпорациям, которые потенциально могут извлечь выгоду из контроля над историческим нарративом. Кроме того, общеизвестно, что издания иногда обновляют статьи, открыто или тайно, поэтому архив, такой как Wayback Machine, также полезен для отслеживания подобных изменений. Сервисы архивирования также могут использоваться для сохранения записей изданий, которые с тех пор прекратили свое существование и чей контент в противном случае был бы утерян для истории.
Злоупотребление компаниями политикой добросовестного использования для обучения LLM ИИ, безусловно, является обоснованной проблемой как для медиакомпаний, так и для других платформ, хранящих огромные объемы данных. Но предотвращение работы сервисов архивирования, таких как Wayback Machine, принесет обществу больше вреда, чем пользы. Есть надежда, что не все потеряно в сфере архивирования — по сообщениям, директор Wayback Machine Марк Грэм ведет переговоры с рядом изданий, чтобы бот архиватора мог снова получить доступ к этим веб-сайтам, в то время как коалиция журналистов и других заинтересованных сторон подписала письмо в поддержку Internet Archive и его миссии по обеспечению всеобщего доступа ко всем знаниям.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: