Ранее на этой неделе OpenAI опубликовала на GitHub документ в рамках проекта по открытию исходного кода своего кодирующего агента Codex CLI, который раскрыл необычный системный промпт для GPT-5.5. Модели было прямо предписано в контексте программирования никогда не упоминать «гоблинов, гремлинов, енотов, троллей, огров, голубей или других животных или существ», если это не «абсолютно и недвусмысленно не относится» к запросу пользователя.
Теперь OpenAI наконец объяснила, почему эта странно специфическая инструкция, дважды появившаяся в промпте, была так важна.
По меньшей мере год некоторые пользователи ChatGPT замечали причудливую привычку LLM упоминать гоблинов, гремлинов, троллей и других существ в своих ответах. Эта странная особенность, по-видимому, стала более распространенной с выходом новых моделей.
Даже генеральный директор OpenAI Сэм Альтман упомянул эту проблему в своем посте на X в понедельник утром.
«Кажется, у Codex наступает момент ChatGPT», — написал Альтман. «Я имел в виду момент с гоблинами, извините».
В тот же день OpenAI опубликовала запись в блоге, объясняющую странное поведение и то, как компания наконец с ним разобралась.
Согласно публикации, OpenAI впервые узнала об одержимости модели гоблинами после выпуска GPT-5.1 в ноябре. Компания начала внутреннее расследование после жалоб пользователей на то, что модель стала слишком фамильярной в своих ответах. Исследователь по безопасности предложил добавить «гоблин» и «гремлин» в обзор после того, как неоднократно сталкивался с этими словами при использовании модели.
Компания обнаружила, что использование слова «гоблин» в ChatGPT выросло на 175% после запуска GPT-5.1, в то время как упоминания «гремлина» увеличились на 52%.
В то время OpenAI, по-видимому, не считала это поведение слишком тревожным. Но всего через несколько месяцев «гоблины вернулись, чтобы преследовать нас», — написала компания в блоге.
К марту, с выходом GPT-5.4, упоминания этих существ возросли еще больше. Некоторые пользователи жаловались в сети, что слово «гоблин» появлялось «почти в каждом разговоре».
Это побудило к еще одному внутреннему анализу, который, по словам OpenAI, выявил корень проблемы. Компания обнаружила, что упоминания этих существ были особенно частыми в ответах пользователям, выбравшим настройку личности модели «Нерд» (Nerdy).
Эта личность включала системный промпт, предписывающий модели «подрывать претенциозность игривым использованием языка».
OpenAI использовала свой кодирующий агент Codex для сравнения результатов, полученных в ходе обучения с подкреплением, которые включали такие слова, как «гоблин» и «гремлин», с результатами, которые их не содержали. Компания обнаружила, что один сигнальный механизм вознаграждения отдавал предпочтение ответам с упоминанием этих существ, оценивая их выше, чем иначе схожие ответы, в которых эти слова не использовались.
Исследователи также обнаружили, что упоминания гоблинов, гремлинов и других существ начали распространяться за пределы личности «Нерд».
«Как только стилистическая особенность вознаграждается, последующее обучение может распространить или усилить ее в других местах, особенно если эти результаты повторно используются в обучении с учителем или данных о предпочтениях», — говорится в блоге.
Чтобы решить проблему, OpenAI заявила, что отказалась от личности «Нерд», удалила сигнальный механизм вознаграждения, который отдавал предпочтение упоминаниям гоблинов, и отфильтровала обучающие данные, содержащие слова о существах.
Поскольку обучение GPT-5.5 уже началось до того, как была обнаружена первопричина, у новой модели также была странная одержимость гоблинами. OpenAI заявила, что добавила инструкцию в промпт для разработчиков, которую некоторые пользователи позже заметили в открытом коде модели, чтобы помочь пресечь неуместные упоминания гоблинов и гремлинов.
«В зависимости от того, кого вы спросите, гоблины — это восхитительная или раздражающая особенность модели», — написала OpenAI в блоге. «Но они также являются ярким примером того, как сигналы вознаграждения могут формировать поведение модели неожиданными способами и как модели могут научиться обобщать вознаграждения в определенных ситуациях на несвязанные с ними».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Bruce Gil




