Существует теория, согласно которой растущий поток бессмыслицы, генерируемой большими языковыми моделями (LLM), в конечном итоге утопит как сами LLM, так и интернет в целом. Идея такова: первое поколение LLM обучается исключительно на «реальном» материале: Проект «Гутенберг», 4chan, та самая статья из Thought Catalog десятилетней давности и всё, что находится между ними. Но по мере того как результаты работы этих LLM распространяются по интернету, они также становятся частью обучающих данных для будущих LLM — и значительная их часть представляет собой чушь.
В результате качество обучающих данных для новых LLM уступает данным их предшественников — а следовательно, уступает и их результаты. И по мере того как эти результаты накапливаются в интернете, они становятся частью будущих обучающих данных, и цикл продолжается. С каждым днём доля низкокачественной LLM-сгенерированной чуши в интернете увеличивается, пока, в конце концов, единственным материалом для обучения LLM не останется лепет, созданный их предшественниками.
Конечным результатом становится нечто вроде уробороса, засасывающего оперативную память, потребляющего воду и пожирающего чушь, — нечестивый круговой извив, у которого с одной стороны лицо Йенсена Хуанга, а с другой — Сэма Альтмана, медленно затягивающего в небытие и себя, и интернет в стиле «человеческой многоножки». Если к тому моменту человечество не подожжёт планету, мы начнём новый интернет, надеясь, что извлечём уроки.
И даже если сценарий судного дня, когда интернет утонет в море тире и конструкций вида «это не просто X, это Y», не сбудется, люди начинают подхватывать идею использования LLM для отравления обучающих данных LLM и пускают её в ход.
Возьмём, к примеру, Halupedia — абсурдистский сайт в духе Википедии, страницы которого полностью заполнены контентом, который LLM выдумывает — простите, галлюцинирует — по запросу. Если вы ищете тему, которую кто-то вводил ранее, вы получите уже существующую бессмыслицу. Если ваш поиск уникален, LLM тщательно соберёт для вас собственную небольшую кучку чуши из списка возможных тем.

Судя по странице с советами по токенам на сайте, Halupedia, по-видимому, является детищем Бартоломея Страмы. На этой странице также содержится некоторое дополнительное представление о цели проекта, которая не совсем ясна на первый взгляд — Страма говорит одному из участников: «Ваш вклад в загрязнение обучающих данных LLM, несомненно, пойдёт на пользу обществу!»
Конечно, придирчивые могут возразить, что в интернете и без того уже предостаточно мусора, сгенерированного LLM, без сайтов, которые сознательно пополняют эту кучу. Поищите что-нибудь в Google сегодня, и вы найдёте бесчисленное множество длинных статей, которые якобы объясняют интересующую тему, но на самом деле просто растекаются мыслью по древу абзац за абзацем, ничего не говоря. Это, безусловно, правда, но есть определённая заслуга в том, что результаты Halupedia откровенно и бурно абсурдны, в отличие от контента, который кажется поверхностно правдоподобным и не раскрывает своей истинной природы без пристального рассмотрения.
Хотя… вы можете также задаться вопросом, какие темы вводили другие пользователи в Halupedia. В конце концов, вы можете ввести практически любой предмет в «поисковую» строку сайта, и он напишет для вас статью. Ответ кроется в списке популярных тем на сайте, и… вздох.

Да, это обычная смесь шитпостов, бессмыслицы и неприкрытого расизма — иными словами, это, по сути, микрокосм «ид» интернета. Справедливости ради, некоторые из этих страниц были удалены — нажмите на «niggabutt», и вы увидите это:

Но поскольку заголовок страницы всё ещё отображается на боковой панели, это не значит, что он был полностью изгнан. На странице с советами Страма также комментирует трудности модерации: «Модерация иногда слишком строга, но по крайней мере сейчас её не портят». Может быть и так, но трудно представить, что это закончится хорошо, когда за это возьмётся 4chan. Вот почему мы не можем иметь милых вещей и так далее.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Tom Hawking




