Почему концепция “humans in the loop” в войне с использованием ИИ — это иллюзия

ии война пентагон черный ящик надзор намерения technologyreview.com

Доступность ИИ для военных действий стала причиной юридического спора между Anthropic и Пентагоном. Автор утверждает, что проблема не в отсутствии человеческого контроля, а в непрозрачности систем ИИ («черных ящиках»), намерения которых люди не могут понять. — technologyreview.com

Доступность искусственного интеллекта для использования в военных действиях находится в центре юридической битвы между Anthropic и Пентагоном. Эти дебаты стали особенно актуальными, поскольку ИИ играет беспрецедентно большую роль в текущем конфликте с Ираном. ИИ больше не просто помогает людям анализировать разведданные. Теперь это активный участник: он в реальном времени генерирует цели, управляет и координирует перехват ракет, а также направляет смертоносные рои автономных дронов.

Большая часть публичных обсуждений использования автономного смертоносного оружия на базе ИИ сосредоточена на том, в какой степени люди должны оставаться «в контуре управления» (in the loop). Согласно нынешним руководящим принципам Пентагона, человеческий надзор якобы обеспечивает подотчетность, контекст и нюансы, одновременно снижая риск взлома.

Системы ИИ — непрозрачные «черные ящики»

Однако дебаты о «людях в контуре» — это успокаивающая отвлекающая маневр. Непосредственная опасность заключается не в том, что машины будут действовать без человеческого надзора; опасность в том, что люди-надзиратели понятия не имеют, что на самом деле «думают» машины. Руководящие принципы Пентагона в корне ошибочны, поскольку они основаны на опасном предположении, что люди понимают, как работают системы ИИ.

Изучив намерения в человеческом мозге на протяжении десятилетий, а системы ИИ — совсем недавно, я могу засвидетельствовать, что самые современные системы ИИ по сути являются «черными ящиками». Мы знаем входные и выходные данные, но искусственный «мозг», который их обрабатывает, остается непрозрачным. Даже их создатели не могут полностью их интерпретировать или понять, как они работают. А когда ИИ и предоставляет объяснения, они не всегда заслуживают доверия.

Иллюзия человеческого надзора в автономных системах

В споре о человеческом надзоре остается без ответа фундаментальный вопрос: можем ли мы понять, что намерена сделать система ИИ до того, как она начнет действовать?

Представьте себе автономный дрон, которому поручено уничтожить вражеский боеприпасный завод. Автоматизированная система управления и контроля определяет, что оптимальной целью является склад боеприпасов. Она сообщает о 92-процентной вероятности успеха миссии, поскольку вторичные взрывы боеприпасов на складе полностью уничтожат объект. Человек-оператор проверяет законную военную цель, видит высокую вероятность успеха и одобряет удар.

Но оператор не знает, что в расчете системы ИИ был учтен скрытый фактор: помимо разрушения боеприпасного завода, вторичные взрывы также нанесут серьезный ущерб близлежащей детской больнице. Аварийное реагирование затем сосредоточится на больнице, гарантируя, что завод сгорит. Для ИИ максимизация такого рода сбоев соответствует поставленной цели. Но для человека это потенциальное военное преступление, нарушающее правила, касающиеся гражданской жизни. 

Присутствие человека в контуре управления может не обеспечить ту защиту, которую ожидают люди, поскольку человек не может знать намерений ИИ до того, как он начнет действовать. Передовые системы ИИ не просто выполняют инструкции; они их интерпретируют. Если операторы не смогут достаточно точно определить свои цели — что весьма вероятно в условиях высокого давления — система «черного ящика» может делать именно то, что ей было сказано, и все равно действовать не так, как предполагали люди.

Этот «разрыв в намерениях» между системами ИИ и операторами-людьми — именно та причина, по которой мы медлим с развертыванием передовых систем ИИ типа «черный ящик» в гражданском здравоохранении или управлении воздушным движением, и почему его интеграция на рабочем месте остается проблематичной — и все же мы спешим развернуть его на поле боя.

Что еще хуже, если одна из сторон конфликта развернет полностью автономное оружие, работающее на машинной скорости и в машинном масштабе, давление с целью сохранения конкурентоспособности заставит другую сторону также полагаться на такое оружие. Это означает, что использование все более автономного — и непрозрачного — принятия решений на основе ИИ в войне, вероятно, будет только расти.

Решение: Развивать науку о намерениях ИИ

Наука об ИИ должна включать как создание высокоэффективных технологий ИИ, так и понимание того, как эта технология работает. Достигнуты огромные успехи в разработке и создании более мощных моделей, чему способствовали рекордные инвестиции — по прогнозам Gartner, они достигнут около 2,5 триллиона долларов только в 2026 году. В отличие от этого, инвестиции в понимание того, как работает эта технология, были мизерными.

Нам необходим масштабный сдвиг парадигмы. Инженеры создают все более мощные системы. Но понимание того, как работают эти системы, — это не просто инженерная задача, это требует междисциплинарных усилий. Мы должны создать инструменты для характеристики, измерения и вмешательства в намерения агентов ИИ до того, как они начнут действовать. Нам необходимо составить карту внутренних путей нейронных сетей, которые управляют этими агентами, чтобы мы могли построить истинное причинно-следственное понимание их принятия решений, выйдя за рамки простого наблюдения за входами и выходами. 

Многообещающим путем вперед является сочетание методов механистической интерпретируемости (разложение нейронных сетей на понятные человеку компоненты) с идеями, инструментами и моделями из нейронауки о намерениях. Другая идея — разработка прозрачных, интерпретируемых ИИ-«аудиторов», предназначенных для мониторинга поведения и возникающих целей более мощных систем «черного ящика» в реальном времени.  

Развитие лучшего понимания того, как функционирует ИИ, позволит нам полагаться на системы ИИ для критически важных миссий. Это также облегчит создание более эффективных, более мощных и безопасных систем.

Мои коллеги и я исследуем, как идеи из нейронауки, когнитивной науки и философии — областей, изучающих, как возникают намерения при принятии решений человеком, — могут помочь нам понять намерения искусственных систем. Мы должны уделять первоочередное внимание таким междисциплинарным усилиям, включая сотрудничество между академическими кругами, правительством и промышленностью.

Однако нам нужно больше, чем просто академические изыскания. Технологическая индустрия — и филантропы, финансирующие согласование ИИ (AI alignment), которое стремится кодировать человеческие ценности и цели в эти модели, — должны направить значительные инвестиции в междисциплинарные исследования интерпретируемости. Кроме того, поскольку Пентагон разрабатывает все более автономные системы, Конгресс должен обязать проводить строгие испытания намерений систем ИИ, а не только их производительности.

Пока мы этого не достигнем, человеческий надзор за ИИ может оказаться скорее иллюзией, чем реальной защитой.

Ури Маоз — когнитивный и вычислительный нейробиолог, специализирующийся на том, как мозг преобразует намерения в действия. Профессор Университета Чепмена с должностями в Калифорнийском университете в Лос-Анджелесе и Калтехе, он возглавляет междисциплинарную инициативу, направленную на понимание и измерение намерений в системах искусственного интеллекта (ai-intentions.org).

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: