Кто такой этот Элиас Торн? Он — постоянный персонаж историй, которые рассказывают чат-боты, как впервые заметил инженер-программист Дэниел Мэй, но никто не знает, почему… до недавнего времени. Согласно новой исследовательской препринту, о котором первым сообщило издание 404 Media, распространение легенды об Элиасе может быть связано с ограничительными мерами (guardrails), внедренными в модели ИИ во время обучения по безопасности и согласованию (alignment training).
Если вам нужно освежить в памяти историю об Элиасе Торне, документ, опубликованный исследователями из Корнеллского университета, — хорошее место для начала. Они дали нескольким моделям ИИ, включая GPT-5.4 Mini от OpenAI, Claude Haiku 4.5 от Anthropic и Gemini 3.1 Flash-Lite от Google, пять различных запросов для генерации историй. Они проанализировали около 20 000 историй, созданных моделями, и обнаружили шокирующее количество повторений: 11 слов — Маяк (Lighthouse), Смотритель (Keeper), Пекарь (Baker), Мэр (Mayor), Часовщик (Clockmaker), Рыбак (Fisherman), Библиотекарь (Librarian), Дирижер (Conductor) — и имена Мара (Mara), Элиас (Elias) и Элара (Elara) — фигурировали в ошеломляющих 88% всех историй.
Никакая комбинация этого невероятно узкого набора существительных для целей повествования не встречается чаще, чем Элиас-смотритель маяка, который появился в двух третях всех сгенерированных историй. Это вполне соответствует анекдотическим примерам, предоставленным Мэем, который также давал разным моделям задание написать истории и обнаруживал, что тот же Элиас-смотритель маяка всплывает снова и снова.
Так в чем же дело? Исследователи предположили, что это может быть связано с данными предварительного обучения, загруженными в эти модели, но быстро отмели эту версию, когда не смогли найти ничего, что указывало бы на то, что «Элиас-смотритель маяка» появляется с избыточной частотой в данных предварительного обучения или в литературе, использованной для обучения.
Вместо этого они связывают проблему с использованием определенных наборов данных, которые стали общепринятыми в лабораториях ИИ. Они упомянули WildChat — открытый набор данных, содержащий миллионы диалогов между людьми и чат-ботом на базе GPT-3.5, — в качестве возможного примера. Набор данных был создан для того, чтобы помочь исследователям понять, как люди общаются с ботами, но с тех пор он использовался для обучения многих различных моделей. Они выдвигают теорию, что обучение согласованию (alignment training), направленное на то, чтобы увести модели от защищенных авторским правом персонажей и контента для взрослых, могло непреднамеренно придать «безопасным» альтернативам, таким как «Элиас-смотритель маяка», необычную значимость, заставляя их повторяться, когда пользователи просят модель сгенерировать историю.
Элиас Торн, смотритель маяка, может подойти для детской сказки на ночь, но 404 Media сообщило, что, похоже, имя персонажа распространяется. Издание обнаружило примеры этого имени в качестве главного героя в фэнтезийных книгах, а также в качестве «артиста», указанного в треках эмбиентной музыки, доступных на Amazon. Мэй также обнаружил примеры, где Элиас Торн выступает автором книг, включая руководство, которое якобы содержит информацию об альтернативных методах лечения рака. Так что это не очень хорошо.
Если ничто другое, то этот странный изъян в повествовании LLM — хорошее напоминание о том, что ИИ не обладает креативностью. Исследование, опубликованное в прошлом году, показало, что модели генерации изображений постоянно создают картинки, которые попадают в одну из всего лишь 12 определенных тем, независимо от того, насколько необычны заданные запросы. По сути, дайте ИИ творческое задание, и он выдаст вам эквивалент музыки для лифта.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – AJ Dellinger




