Разочарованный исследователь Microsoft использует коз в Age of Empires II, чтобы показать абсурдность LLM

Llm ии козы подложка антропоморфизм Aoe Ii gizmodo.com

Воспринимали бы вы ответ GoatGPT иначе, чем ChatGPT? Даже если бы они работали абсолютно одинаково? Исследование показывает, как подложка влияет на восприятие ИИ.

Козы — это комедийное золото. Они бодают озадаченных кошек! Они падают в обморок! Они издают уморительные звуки! Просто невероятно смешные звуки! Они совершают невыразимые вещи с шерифом! И иногда они совершенно и абсолютно… ну, скажем так, как австралиец, я чувствую себя обязанным отдать дань уважения бессмертному Кевину, чье прозвище не будет произнесено в приличной американской компании, но чьей карьере на YouTube следует радоваться во всей ее нецензурной славе.

Суть в том, что если бы вы захотели, скажем, подчеркнуть присущую абсурдность заявлений о том, что большие языковые модели (LLM) каким-то образом обладают сознанием, то, за неимением возможности заполучить настоящего попугая и свалить весь интернет в его крошечный пост-завропсидный мозг, вы могли бы недурно проиллюстрировать свой аргумент козами. И что вы думаете? Похоже, исследователь из Microsoft сделал именно это.

Возможно, под влиянием безумия на тему сингулярности с галактическим мозгом, исходящего от его коллег из конкурирующих компаний, исследователь по имени Эдриан де Винтер решил в начале этого года продемонстрировать, что утверждения за и против разумности LLM требуют какой-либо фактической оценки обоснованности таких заявлений. В частности, как описано в его статье «If LLMs Have Human-Like Attributes, Then So Does Age of Empires II» (Если у LLM есть человекоподобные атрибуты, то и у Age of Empires II они есть), де Винтер сел, чтобы показать, что в настоящее время у нас нет никаких надежных «широко признанных экспериментальных протоколов или школ мысли» для оценки заявлений о разумности.

Как следует из названия, статья утверждает, что если у LLM есть человекоподобные атрибуты, то они есть и у классической стратегии в реальном времени 1999 года Age of Empires II. Но не просто у какой-нибудь старой части Age of Empires II, нет. Речь идет о козах. Де Винтер использовал редактор сценариев AoE II, чтобы задействовать игровых коз в качестве компонентов для базовых логических вентилей. (Подробности того, как он это сделал, интересны, и они используют термин «бит-коза», который мы решили использовать как можно чаще в дальнейшем.)

Как объясняется в статье де Винтера, как только вы заставите работать несколько элементарных логических операций — NAND, XNOR и AND — у вас будет все необходимое для построения того, что называется перцептроном, который является одной из самых базовых форм искусственного интеллекта. Он строит однобитный перцептрон с помощью своих логических вентилей на основе коз и утверждает, что это фактически является доказательством концепции для создания полноценной виртуальной LLM на основе коз.

Цифровые козы как LLM?

Все это забавно, но в чем же заключается мысль де Винтера? На самом деле, есть два ключевых момента, и оба они связаны с тем, как мы оцениваем антропоморфные качества LLM. Первый момент заключается в том, что, как показывают козы, «любая достаточно мощная подложка (субстрат) может реализовать сущность, эквивалентную LLM».

Термин «подложка» (substrate) здесь важен, и он в основном относится к «материалу», из которого построена LLM, будь то большой объем кода, надежно хранящийся — ну, предположительно — в такой компании, как Anthropic или Open AI, или куча виртуальных коз в AoE II.

Второй, и, возможно, более важный момент, заключается в том, что «такая реализация изменяет представление об LLM и, следовательно, может повлиять на ее воспринимаемые свойства». По сути, вы можете построить одну и ту же LLM на разных подложках, так же как вы можете запустить одну и ту же программу на разных операционных системах.

Однако в случае LLM — и, в частности, в случае попытки оценить антропоморфные качества этих LLM — природа подложки влияет на то, как воспринимается LLM. Важно то, что это происходит независимо от характера предположений, сделанных о качествах LLM: «предположение о наличии или отсутствии обобщенных антропоморфных атрибутов для проверки гипотезы об их существовании или опровержении является ошибочным».

Вопрос о разумности LLM — это «бе-е-е-зумный» вопрос

Это тонкий момент, поэтому стоит рассмотреть его подробнее. Хотя козы служат забавной демонстрацией того, как можно создавать LLM, основной посыл этой статьи заключается в опасностях выдвижения предположений — положительных или отрицательных — при разработке экспериментов, особенно когда речь идет о такой скользкой и нагруженной теме, как разумность LLM.

Как утверждал Расти из Today in Tabs в превосходном эссе несколько месяцев назад, почти невозможно не начать приписывать человеческие качества чему-то, что имитирует человеческое взаимодействие так безупречно, как LLM вроде ChatGPT — на протяжении всей истории человечества язык был прерогативой разумных существ (то есть нас), поэтому, когда мы сталкиваемся с чем-то, что использует язык, мы склонны предполагать, что оно разумно, и взаимодействуем с ним соответствующим образом.

Это предположение пронизывает и исследования LLM — и, что крайне важно, так же проникает и реакция против него. Исходная позиция, что LLM лишена того или иного антропоморфного качества, столь же предвзята по отношению к исследованию, как и исходная позиция, что она этим качеством обладает — в любом случае, как отмечается в статье после долгого отступления о вопросах философии, «то, что считается доказательством для вывода, зависит от сделанных предположений».

Проблема в том, что вся суть эксперимента, как правило, заключается в том, чтобы начать с гипотезы, а затем попытаться ее опровергнуть или подтвердить. И хотя некоторые вопросы о LLM являются объективными, вопросы антропоморфизма в значительной степени субъективны. В статье приводится следующий пример: «[Возьмем] эксперимент, пытающийся опровергнуть эффективность способности LLM давать объяснения своих состояний на естественном языке. LLM генерируют объяснения на естественном языке, и это наблюдаемый факт. Является ли это пониманием внутреннего состояния — это антропоморфное приписывание».

И вот в чем загвоздка: природа этого приписывания может резко меняться в зависимости от подложки, на которой построена данная LLM. Это возвращает нас к бит-козам, потому что теоретически вы могли бы реализовать ChatGPT в AoE II — но стали бы вы воспринимать ответы этой реализации ChatGPT так же, как вы воспринимаете ее ответы, когда они передаются вам в браузере, или через вашу умную колонку, или и т. д.?

Нет, говорит де Винтер. «Если можно построить LLM внутри игры, то [воспринимаемые] антропоморфные атрибуты [этой LLM] будут, откровенно говоря, менее убедительными». Это имеет смысл, потому что с ChatGPT на основе коз в AoE II вы видите, что происходит: ответ на ваш вопрос предоставляется кучей виртуальных бит-коз. «Задавать LLM вопрос и интерпретировать ответ на естественном языке как собственное мнение [LLM] так же обоснованно, как интерпретировать ответ AoE II на тот же вопрос, наблюдая за козами».

Но сама LLM нисколько не изменилась — изменился только способ ее реализации. Итак, вот в чем дело: «Конструкция этой статьи призвана проиллюстрировать иллюзию антропоморфных атрибутов в LLM. Если и LLM, и AoE II-LLM демонстрируют одинаковое поведение ввода/вывода, но не демонстрируют одинаковых антропоморфных атрибутов интерфейса (например, задержки или текстового интерфейса), то мы можем отметить, что большая часть этих атрибутов приписывается им на основе ожиданий наблюдателя».

Так что в следующий раз, когда вы спросите ChatGPT, стоит ли вам писать бывшему или принимать определенный коктейль из наркотиков, вспомните о бит-козах. Ваш ответ исходит от кучки виртуальных Кевинов, бегающих взад и вперед по загонам.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: