Архивировать интернет становится сложнее, поскольку бум искусственного интеллекта (ИИ) спровоцировал кризис хранения данных: наблюдается дефицит как NAND-памяти, так и механических накопителей. Те же самые жесткие диски большой емкости теперь стоят до трех раз дороже из-за сокращения производственных мощностей, которые в противном случае были бы полностью забронированы гиперскейлерами. Рост цен затруднил сохранение данных в обычных темпах по всей отрасли, как сообщает 404 Media.
Internet Archive, чья миссия — обеспечить «универсальный доступ ко всем знаниям», является одной из организаций, пострадавших от этого кризиса. Она хранит около 210 петабайт архивов, и еще 100 терабайт ежедневно добавляется в такие коллекции, как Wayback Machine. На фоне бума ИИ поддержание этого объема стало «весьма реальной проблемой, требующей от нас времени и денег», — сообщил основатель Брюстер Кейл изданию 404 Media.
Жесткие диски емкостью 28–30 ТБ, идеально подходящие для этой задачи, просто отсутствуют на складах или доступны по сильно завышенной цене. К счастью, у Internet Archive есть активные доноры и страстное сообщество борцов с «битовым распадом», которые помогают смягчить некоторые из этих проблем, но только путем поиска обходных путей. Организация также пытается закупать диски у производителей, но те, вероятно, заняты выполнением отложенных заказов.
Wikimedia Foundation, некоммерческая организация, стоящая за Википедией, разделяет схожие опасения, объясняя, что поддержание более 65 миллионов статей уже требует тщательного распределения бюджета, что текущая турбулентность только усугубила. Представитель сообщил 404 Media, что они видят «основное влияние на закупку памяти и жестких дисков, а также в сроках поставки серверов и нашей способности размещать будущие заказы».
Помимо дефицита, бум ИИ сумел повлиять на усилия по архивированию еще одним, вероятно, необратимым образом: скрапингом. Большие языковые модели (LLM) обучаются на огромных массивах данных, часто полученных из интернета, иногда даже незаконно. Как и следовало ожидать, многие сайты не одобряют, когда их случайным образом скрапят для включения в учебный материал какого-либо ИИ, поэтому они выставили контрмеры, не позволяющие компаниям этого делать.
Архивирование интернета начинается с одного и того же шага — необходимо извлечь информацию, чтобы ее сохранить, но операторы веб-сайтов все чаще блокируют такие попытки. Боты, которые в ином случае скрапили бы сайт просто для создания снимка в образовательных целях, теперь приравниваются к ботам, собирающим информацию для искусственного интеллекта, намеренно или нет.
Люди в сообществе, которые вносят вклад в усилия по сохранению данных, также вынуждены дважды подумать о том, что именно сохранять. Поскольку жесткие диски стали такими дорогими, даже энтузиасты из сабреддита r/DataHoarders публикуют пессимистичные сообщения о том, что они прекратили архивирование, ожидая выравнивания цен. Иногда можно найти выгодные предложения, но увидеть накопитель большой емкости по рекомендованной розничной цене стало почти невозможно.
Это обычные люди, борющиеся с ростом затрат, в то время как крупные некоммерческие организации все еще как-то справляются (игра слов: «scrape by» — едва сводить концы с концами). Но как насчет игроков, находящихся посередине? End of Term Archive, занимающийся архивированием правительственных веб-сайтов между различными администрациями, надеется, что ситуация стабилизируется к тому времени, когда им понадобится обновление.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Hassam Nasir




