Козы — это комедийное золото. Они бодают озадаченных кошек! Они падают в обморок! Они издают уморительные звуки! Просто невероятно смешные звуки! Они совершают невыразимые вещи с шерифом! И иногда они совершенно и абсолютно… ну, скажем так, как австралиец, я чувствую себя обязанным отдать дань уважения бессмертному Кевину, чье прозвище не будет произнесено в приличной американской компании, но чьей карьере на YouTube следует радоваться во всей ее нецензурной славе.
Суть в том, что если бы вы захотели, скажем, подчеркнуть присущую абсурдность заявлений о том, что большие языковые модели (LLM) каким-то образом обладают сознанием, то, за неимением возможности заполучить настоящего попугая и свалить весь интернет в его крошечный пост-завропсидный мозг, вы могли бы недурно проиллюстрировать свой аргумент козами. И что вы думаете? Похоже, исследователь из Microsoft сделал именно это.
Возможно, под влиянием безумия на тему сингулярности с галактическим мозгом, исходящего от его коллег из конкурирующих компаний, исследователь по имени Эдриан де Винтер решил в начале этого года продемонстрировать, что утверждения за и против разумности LLM требуют какой-либо фактической оценки обоснованности таких заявлений. В частности, как описано в его статье «If LLMs Have Human-Like Attributes, Then So Does Age of Empires II» (Если у LLM есть человекоподобные атрибуты, то и у Age of Empires II они есть), де Винтер сел, чтобы показать, что в настоящее время у нас нет никаких надежных «широко признанных экспериментальных протоколов или школ мысли» для оценки заявлений о разумности.
Как следует из названия, статья утверждает, что если у LLM есть человекоподобные атрибуты, то они есть и у классической стратегии в реальном времени 1999 года Age of Empires II. Но не просто у какой-нибудь старой части Age of Empires II, нет. Речь идет о козах. Де Винтер использовал редактор сценариев AoE II, чтобы задействовать игровых коз в качестве компонентов для базовых логических вентилей. (Подробности того, как он это сделал, интересны, и они используют термин «бит-коза», который мы решили использовать как можно чаще в дальнейшем.)
Как объясняется в статье де Винтера, как только вы заставите работать несколько элементарных логических операций — NAND, XNOR и AND — у вас будет все необходимое для построения того, что называется перцептроном, который является одной из самых базовых форм искусственного интеллекта. Он строит однобитный перцептрон с помощью своих логических вентилей на основе коз и утверждает, что это фактически является доказательством концепции для создания полноценной виртуальной LLM на основе коз.
Цифровые козы как LLM?
Все это забавно, но в чем же заключается мысль де Винтера? На самом деле, есть два ключевых момента, и оба они связаны с тем, как мы оцениваем антропоморфные качества LLM. Первый момент заключается в том, что, как показывают козы, «любая достаточно мощная подложка (субстрат) может реализовать сущность, эквивалентную LLM».
Термин «подложка» (substrate) здесь важен, и он в основном относится к «материалу», из которого построена LLM, будь то большой объем кода, надежно хранящийся — ну, предположительно — в такой компании, как Anthropic или Open AI, или куча виртуальных коз в AoE II.
Второй, и, возможно, более важный момент, заключается в том, что «такая реализация изменяет представление об LLM и, следовательно, может повлиять на ее воспринимаемые свойства». По сути, вы можете построить одну и ту же LLM на разных подложках, так же как вы можете запустить одну и ту же программу на разных операционных системах.
Однако в случае LLM — и, в частности, в случае попытки оценить антропоморфные качества этих LLM — природа подложки влияет на то, как воспринимается LLM. Важно то, что это происходит независимо от характера предположений, сделанных о качествах LLM: «предположение о наличии или отсутствии обобщенных антропоморфных атрибутов для проверки гипотезы об их существовании или опровержении является ошибочным».
Вопрос о разумности LLM — это «бе-е-е-зумный» вопрос
Это тонкий момент, поэтому стоит рассмотреть его подробнее. Хотя козы служат забавной демонстрацией того, как можно создавать LLM, основной посыл этой статьи заключается в опасностях выдвижения предположений — положительных или отрицательных — при разработке экспериментов, особенно когда речь идет о такой скользкой и нагруженной теме, как разумность LLM.
Как утверждал Расти из Today in Tabs в превосходном эссе несколько месяцев назад, почти невозможно не начать приписывать человеческие качества чему-то, что имитирует человеческое взаимодействие так безупречно, как LLM вроде ChatGPT — на протяжении всей истории человечества язык был прерогативой разумных существ (то есть нас), поэтому, когда мы сталкиваемся с чем-то, что использует язык, мы склонны предполагать, что оно разумно, и взаимодействуем с ним соответствующим образом.
Это предположение пронизывает и исследования LLM — и, что крайне важно, так же проникает и реакция против него. Исходная позиция, что LLM лишена того или иного антропоморфного качества, столь же предвзята по отношению к исследованию, как и исходная позиция, что она этим качеством обладает — в любом случае, как отмечается в статье после долгого отступления о вопросах философии, «то, что считается доказательством для вывода, зависит от сделанных предположений».
Проблема в том, что вся суть эксперимента, как правило, заключается в том, чтобы начать с гипотезы, а затем попытаться ее опровергнуть или подтвердить. И хотя некоторые вопросы о LLM являются объективными, вопросы антропоморфизма в значительной степени субъективны. В статье приводится следующий пример: «[Возьмем] эксперимент, пытающийся опровергнуть эффективность способности LLM давать объяснения своих состояний на естественном языке. LLM генерируют объяснения на естественном языке, и это наблюдаемый факт. Является ли это пониманием внутреннего состояния — это антропоморфное приписывание».
И вот в чем загвоздка: природа этого приписывания может резко меняться в зависимости от подложки, на которой построена данная LLM. Это возвращает нас к бит-козам, потому что теоретически вы могли бы реализовать ChatGPT в AoE II — но стали бы вы воспринимать ответы этой реализации ChatGPT так же, как вы воспринимаете ее ответы, когда они передаются вам в браузере, или через вашу умную колонку, или и т. д.?
Нет, говорит де Винтер. «Если можно построить LLM внутри игры, то [воспринимаемые] антропоморфные атрибуты [этой LLM] будут, откровенно говоря, менее убедительными». Это имеет смысл, потому что с ChatGPT на основе коз в AoE II вы видите, что происходит: ответ на ваш вопрос предоставляется кучей виртуальных бит-коз. «Задавать LLM вопрос и интерпретировать ответ на естественном языке как собственное мнение [LLM] так же обоснованно, как интерпретировать ответ AoE II на тот же вопрос, наблюдая за козами».
Но сама LLM нисколько не изменилась — изменился только способ ее реализации. Итак, вот в чем дело: «Конструкция этой статьи призвана проиллюстрировать иллюзию антропоморфных атрибутов в LLM. Если и LLM, и AoE II-LLM демонстрируют одинаковое поведение ввода/вывода, но не демонстрируют одинаковых антропоморфных атрибутов интерфейса (например, задержки или текстового интерфейса), то мы можем отметить, что большая часть этих атрибутов приписывается им на основе ожиданий наблюдателя».
Так что в следующий раз, когда вы спросите ChatGPT, стоит ли вам писать бывшему или принимать определенный коктейль из наркотиков, вспомните о бит-козах. Ваш ответ исходит от кучки виртуальных Кевинов, бегающих взад и вперед по загонам.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Tom Hawking




