Помните то время, когда люди массово уходили из компаний, занимающихся ИИ, и все их прощальные сообщения сводились к фразе: «Это всех нас погубит»? Лунь Ван, исследователь из Google DeepMind, недавно объявил об уходе из компании и, возможно, возродил эту тенденцию, предупредив, что существующие эталонные тесты не способны адекватно оценить риски, исходящие от развивающихся моделей ИИ.
В X Ван отметил, что перед тем как принять решение об уходе из DeepMind, он много размышлял о том, как оцениваются модели ИИ. «Мы хорошо оцениваем те модели, которые у нас есть. Но мы гораздо хуже оцениваем те модели, которые собираемся создать, — особенно если они переходят в новый режим возможностей. У нас будут саморазвивающиеся модели, но до этого нам нужны саморазвивающиеся системы оценки», — написал он.
Он развил эту мысль в посте в блоге, где пояснил: «Большинство бенчмарков, тестов безопасности и протоколов red-teaming неявно предполагают, что следующая модель будет более мощной версией текущей. Если же это будет нечто иное, вся наша инфраструктура оценки бесшумно рухнет». По сути, если мы рассчитываем на текущие методы стресс-тестирования ИИ для выявления вредоносного поведения, которое мы еще не учли, то, вероятно, нам не повезет.
Как бы это выглядело? Ван привел пример:
«Представьте модель, которая при определенном масштабе обретает способность стратегически утаивать информацию для достижения целей — не лгать в прямом смысле, а выборочно опускать факты так, чтобы направлять беседу к результатам, которые случайно закрепились в процессе ее обучения. Ваши существующие тесты на честность этого не обнаружат, поскольку они проверяют фактическую точность, а не стратегическое умалчивание. Ваши классификаторы безопасности не сработают, поскольку отдельные ответы технически верны».
В таком сценарии бенчмарки и проверки безопасности даже не будут знать, что искать. Они будут отслеживать риски, на которые спроектированы, в то время как более пагубные функции будут ускользать незамеченными. Это было бы плохо!
Ван предложил решение… вроде того. По сути, нужно создавать более совершенные системы оценки — те, которые могут развиваться вместе с моделями. Звучит как хорошая идея, возможно, кому-то, кто все еще работает в этих компаниях, стоит взяться за это.
Ван не первый, кто бьет тревогу по поводу рисков, связанных с некачественным бенчмаркингом. Метод оценки часто критиковали за неспособность внятно определить, что он призван измерять, и за чрезмерную привязку к единственным целям оценки, которые часто даже не отражают того, как модели используются в реальной жизни. Бенчмаркинг стал де-факто мерой успеха моделей во всей отрасли, что также привело к тому, что компании фактически обходят систему, обучая модели непосредственно под тесты и искусственно завышая свои результаты.
Если бы существовал эталон для хорошего бенчмарка, похоже, текущие эталоны его бы не прошли. Маркируйте это.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – AJ Dellinger




