«Гоблины вернулись, чтобы преследовать нас»: OpenAI объяснила, как «занудный» характер ChatGPT вышел из-под контроля

Openai Chatgpt Gpt-5.5 Codex гоблины Llm gizmodo.com

OpenAI готова рассказать об одержимости ChatGPT гоблинами. Компания объяснила, почему в системном промпте Codex CLI было требование не упоминать мифических существ. — gizmodo.com

Ранее на этой неделе OpenAI опубликовала на GitHub документ в рамках проекта по открытию исходного кода своего кодирующего агента Codex CLI, который раскрыл необычный системный промпт для GPT-5.5. Модели было прямо предписано в контексте программирования никогда не упоминать «гоблинов, гремлинов, енотов, троллей, огров, голубей или других животных или существ», если это не «абсолютно и недвусмысленно не относится» к запросу пользователя.

Теперь OpenAI наконец объяснила, почему эта странно специфическая инструкция, дважды появившаяся в промпте, была так важна.

По меньшей мере год некоторые пользователи ChatGPT замечали причудливую привычку LLM упоминать гоблинов, гремлинов, троллей и других существ в своих ответах. Эта странная особенность, по-видимому, стала более распространенной с выходом новых моделей.

Даже генеральный директор OpenAI Сэм Альтман упомянул эту проблему в своем посте на X в понедельник утром.

«Кажется, у Codex наступает момент ChatGPT», — написал Альтман. «Я имел в виду момент с гоблинами, извините».

В тот же день OpenAI опубликовала запись в блоге, объясняющую странное поведение и то, как компания наконец с ним разобралась.

Согласно публикации, OpenAI впервые узнала об одержимости модели гоблинами после выпуска GPT-5.1 в ноябре. Компания начала внутреннее расследование после жалоб пользователей на то, что модель стала слишком фамильярной в своих ответах. Исследователь по безопасности предложил добавить «гоблин» и «гремлин» в обзор после того, как неоднократно сталкивался с этими словами при использовании модели.

Компания обнаружила, что использование слова «гоблин» в ChatGPT выросло на 175% после запуска GPT-5.1, в то время как упоминания «гремлина» увеличились на 52%.

В то время OpenAI, по-видимому, не считала это поведение слишком тревожным. Но всего через несколько месяцев «гоблины вернулись, чтобы преследовать нас», — написала компания в блоге.

К марту, с выходом GPT-5.4, упоминания этих существ возросли еще больше. Некоторые пользователи жаловались в сети, что слово «гоблин» появлялось «почти в каждом разговоре».

Это побудило к еще одному внутреннему анализу, который, по словам OpenAI, выявил корень проблемы. Компания обнаружила, что упоминания этих существ были особенно частыми в ответах пользователям, выбравшим настройку личности модели «Нерд» (Nerdy).

Эта личность включала системный промпт, предписывающий модели «подрывать претенциозность игривым использованием языка».

OpenAI использовала свой кодирующий агент Codex для сравнения результатов, полученных в ходе обучения с подкреплением, которые включали такие слова, как «гоблин» и «гремлин», с результатами, которые их не содержали. Компания обнаружила, что один сигнальный механизм вознаграждения отдавал предпочтение ответам с упоминанием этих существ, оценивая их выше, чем иначе схожие ответы, в которых эти слова не использовались.

Исследователи также обнаружили, что упоминания гоблинов, гремлинов и других существ начали распространяться за пределы личности «Нерд».

«Как только стилистическая особенность вознаграждается, последующее обучение может распространить или усилить ее в других местах, особенно если эти результаты повторно используются в обучении с учителем или данных о предпочтениях», — говорится в блоге.

Чтобы решить проблему, OpenAI заявила, что отказалась от личности «Нерд», удалила сигнальный механизм вознаграждения, который отдавал предпочтение упоминаниям гоблинов, и отфильтровала обучающие данные, содержащие слова о существах.

Поскольку обучение GPT-5.5 уже началось до того, как была обнаружена первопричина, у новой модели также была странная одержимость гоблинами. OpenAI заявила, что добавила инструкцию в промпт для разработчиков, которую некоторые пользователи позже заметили в открытом коде модели, чтобы помочь пресечь неуместные упоминания гоблинов и гремлинов.

«В зависимости от того, кого вы спросите, гоблины — это восхитительная или раздражающая особенность модели», — написала OpenAI в блоге. «Но они также являются ярким примером того, как сигналы вознаграждения могут формировать поведение модели неожиданными способами и как модели могут научиться обобщать вознаграждения в определенных ситуациях на несвязанные с ними».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: