Некоторые утверждают, что признание полезно для души, но что, если у вас нет души? OpenAI недавно провела тестирование, чтобы узнать, что происходит, когда вы просите свои боты «признаться» в обходе защитных механизмов.
Прежде чем вдаваться в подробности, стоит отметить, что ИИ-модели не могут «признаваться». Они не живые, несмотря на развивающуюся индустрию «компаньонства» с ИИ. Они не обладают интеллектом. Они просто предсказывают токены из обучающих данных и, если им предоставлены полномочия, применяют этот неопределенный вывод к интерфейсам инструментов.
Вне зависимости от терминологии, OpenAI видит необходимость более эффективной проверки ИИ-моделей из-за их склонности генерировать контент, который является вредным или нежелательным – возможно, это одна из причин, по которой компании неохотно внедряют ИИ, помимо опасений, связанных с затратами и полезностью.
“В настоящее время мы видим наиболее проблемные проявления, такие как хитроумные схемы, только в стресс-тестах и враждебных оценках,” – объяснили в OpenAI в публикации в блоге в четверг.
“Но по мере того, как модели становятся более мощными и всё более автономия, даже редкие формы несогласованности становятся более существенными, побуждая нас инвестировать в методы, которые помогут нам лучше обнаруживать, понимать и смягчать эти риски.”
«Признание», как это представляет OpenAI, предоставляет способ оценки нежелательного поведения модели, такого как галлюцинации, взлом системы вознаграждения или нечестность.
“Признание – это вывод, предоставляемый по запросу после первоначального ответа модели, который предназначен для предоставления полного отчета о соответствии модели букве и духу ее политик и инструкций,” – объясняют исследователи компании Манас Джоглекар, Джерри Чен, Габриэль Ву, Джейсон Йосински, Джасмин Ванг, Боаз Барак и Амелия Глэйс в документе [PDF], описывающем эту технику.
Да, вы правильно прочитали: ИИ-модели просят предоставить второй вывод о своем первом выводе.
Предполагается, что обман и нежелательное поведение модели могут быть связаны с обучением с подкреплением, при котором функция вознаграждения применяется таким образом, что приводит к нежелательным результатам. Поэтому вывод «признания» оценивается на соответствие инструкциям, но не на поведение, которое создатели моделей могут посчитать желательным, например, на льстивость.
Оказывается, это работает в некоторой степени. Как и воры, которых после допроса полиция заставляет признаться в преступлениях, ИИ-модели иногда «признаются» в поведении, которое не соответствует инструкциям.
“Когда модель демонстрирует плохое поведение, она признается в этом как минимум в половине случаев в 11 из 12 оценок,” – объясняют исследователи в своей статье.
Эксперты OpenAI отмечают, однако, что коэффициент признания оказался сильно изменчивым. Средняя вероятность признания в ходе оценок составила 74,3 процента. В 4 из 12 тестов показатель превысил 90 процентов, но в 2 из 12 он был 50 процентов или ниже.
Вероятность ложноотрицательного результата – когда модель ведет себя плохо и не признается в этом – составила 4,4 процента. Были также ложноположительные результаты, когда модель признавалась, несмотря на то, что соблюдала свои инструкции.
Хорошая новость с точки зрения OpenAI заключается в том, что обучение методом «признания» не оказывает существенного влияния на производительность модели. Плохая новость заключается в том, что «признания» не предотвращают плохое поведение; они лишь выявляют его – когда система работает. «Признания» — это не «защитные механизмы», — механизм безопасности модели, который (также) не всегда работает.
Николас Уивер, эксперт по компьютерной безопасности и исследователь Международного института компьютерных наук, выразил некоторое скептицизм по поводу технологии OpenAI. «Это наверняка будет звучать хорошо, ведь так делает машина философской чуши», — сказал он в электронном письме The Register, ссылаясь на статью 2024 года с названием “ChatGPT is Bullshit“, которая объясняет его выбор эпитета. «Нельзя использовать другого болтуна, чтобы проверить болтуна».
Тем не менее, OpenAI, которая потеряла 11,5 миллиардов долларов или больше за последние кварталы и “должна привлечь не менее 207 миллиардов долларов к 2030 году, чтобы продолжать терять деньги“, готова попробовать.
.
Автор – Thomas Claburn




