NPU в вашем телефоне становится лучше – но почему ИИ от этого не выигрывает?

генеративный ИИ,NPU,edge AI,облачные вычисления,мобильные процессоры

Сокращение ИИ для смартфонов – сложная задача: NPU обещают ускорение, но большинство ИИ‑операций остаются в облаке. Обзор возможностей краевых процессоров, их ограничений и перспектив гибридного подхода.

Почти каждое технологическое новшество последних нескольких лет было сосредоточено на одной цели: генеративный ИИ. Многие из этих якобы революционных систем работают на огромных дорогих серверах в каком‑то дата‑центре, однако одновременно производители чипов хвастаются мощью нейронных процессоров (NPU), которые они интегрируют в потребительские устройства. Каждые несколько месяцев появляется одно и то же: новый NPU на 30–40 % быстрее предыдущего. По задумке это должно давать вам возможность делать что‑то важное, но никто по‑настоящему не объясняет, что именно.

Эксперты предсказывают будущее безопасных персональных ИИ‑инструментов с интеллектом на устройстве, но соответствует ли это реальности всплеска интереса к ИИ? ИИ «на краю» звучит привлекательно, однако почти каждый значимый ИИ‑инструмент работает в облаке. Так что же делает ваш чип в телефоне?

Компании, анонсируя новые продукты, часто застревают в суперлативных и расплывчатых маркетинговых фразах, поэтому они плохо объясняют технические детали. Большинству покупателей не ясно, зачем им нужен аппаратный ресурс для ИИ‑нагрузок, а предполагаемые выгоды остаются в основном теоретическими.

Многие современные флагманские потребительские процессоры – это системы‑на‑чипе (SoC), поскольку объединяют несколько вычислительных элементов – ядра CPU, GPU и контроллеры обработки изображений – на едином кристалле. Это относится как к мобильным решениям типа Qualcomm Snapdragon или Google Tensor, так и к ПК‑компонентам вроде Intel Core Ultra.

NPU – более свежий элемент чипов, но он не появился вдруг; за ним стоит целая генеалогия. NPU хороши в своей задаче, потому что делают упор на параллельные вычисления – то же, что важно и для других компонентов SoC.

Qualcomm уделяет значительное время при презентациях новых продуктов обсуждению своих NPU Hexagon. Внимательные наблюдатели заметят, что это название переиспользовано от линейки цифровых сигнальных процессоров (DSP), и у этого есть причина.

«Наша дорога в обработку ИИ началась, вероятно, 15‑20 лет назад, когда мы в качестве отправной точки рассматривали обработку сигналов», – сказал Винеш Сукумар, глава AI‑продуктов Qualcomm. DSP имеют схожую архитектуру с NPU, но они гораздо проще и ориентированы на обработку аудио (например, распознавание речи) и сигналов модема.

По мере развития технологий, которые мы называем «искусственным интеллектом», инженеры начали использовать DSP для более сложных параллельных задач, таких как долгосрочная краткосрочная память (LSTM). Сукумар объяснил, что с ростом популярности сверточных нейронных сетей (CNN), лежащих в основе компьютерного зрения, DSP стали сосредотачиваться на матричных функциях, которые также критичны для генеративного ИИ.

Хотя есть архитектурная связь, нельзя сказать, что NPU – просто дорогие DSP. «Если говорить о DSP в общем, то да, NPU – это цифровой сигнальный процессор», – отметил Марк Одани, помощник вице‑президента MediaTek. «Но они прошли долгий путь, гораздо лучше оптимизированы для параллелизма, работы трансформеров и хранения огромного числа параметров».

Несмотря на то, что NPU находятся в центре новых чипов, они не являются строго необходимыми для выполнения ИИ‑нагрузок «на краю», термин, отличающий локальную обработку от облачных систем. CPU медленнее NPU, но способны справиться с лёгкими задачами, потребляя меньше энергии. GPU зачастую обрабатывают больше данных, чем NPU, но тратят больше энергии. И бывают случаи, когда предпочтительнее использовать GPU, поясняет Сукумар. Например, выполнение ИИ‑нагрузок одновременно с игрой может выгодно задействовать графический процессор.

«Здесь ваш критерий успеха – не допустить падения частоты кадров, сохранив пространственное разрешение, динамический диапазон пикселя и при этом предоставить ИИ‑рекомендации игроку», – говорит Сукумар. «В таком случае имеет смысл выполнять задачу в графическом движке, чтобы не переключаться между графикой и специализированным ИИ‑движком, вроде NPU».

К сожалению, NPU во многих устройствах простаивают (и не только во время игр). Сочетание локальных и облачных ИИ‑инструментов склоняется в сторону облака, поскольку именно там естественно работают большие языковые модели (LLM). ИИ‑модели обучаются и дорабатываются на мощных серверах, и именно там они показывают лучшие результаты.

Облачный ИИ, вроде полноценных версий Gemini и ChatGPT, не ограничен ресурсами, в отличие от модели, работающей на NPU вашего телефона. Возьмём, к примеру, последнюю версию модели Gemini Nano от Google, работающую на устройстве и имеющую окно контекста 32 тыс. токенов – более чем вдвое лучше предыдущей версии. Однако облачные модели Gemini поддерживают окна контекста до 1 млн токенов, позволяя обрабатывать существенно большие объёмы данных.

И облачный, и краевой ИИ‑аппарат будут продолжать совершенствоваться, но баланс, вероятно, не склонится в пользу NPU. «Облако всегда будет обладать большим вычислительным ресурсом по сравнению с мобильным устройством», – говорит Шеназ Зак, старший менеджер продукта Pixel от Google.

«Если нужны самые точные или самые «мощные» модели, их следует запускать в облаке», – добавил Одани. «Но мы обнаруживаем, что во многих сценариях, где требуется лишь суммировать текст или поговорить с голосовым помощником, этих задач хватает в рамках трёх миллиардов параметров».

Поместить ИИ‑модель на телефон или ноутбук требует компромиссов, например, уменьшения количества параметров. Одани пояснил, что облачные модели оперируют сотнями миллиардов параметров – весов, определяющих, как модель обрабатывает входные токены и генерирует вывод. На потребительском устройстве пока невозможно запустить что‑то подобное, поэтому разработчикам приходится значительно сокращать размер моделей для краевого выполнения. По словам Одани, новейший девятого поколения NPU от MediaTek может работать с примерно 3 млрд параметров – разница в несколько порядков величины.

Объём памяти телефона или ноутбука также ограничивает возможности, поэтому мобильные ИИ‑модели обычно квантизируются, то есть работают с меньшей точностью. Предположим, вы хотите запустить одну из крупных открытых моделей, например Llama или Gemma 7b, на устройстве. Стандартом де‑факто является FP16 (полупрецизионный режим). При таком уровне модель с 7 млрд параметров займёт 13‑14 ГБ памяти. Переход к FP4 (четверичная точность) сокращает объём модели до нескольких гигабайт.

«Когда вы сжимаете модель до, скажем, трёх‑четырёх гигабайт, это оптимальное решение для устройств с ограниченной памятью, как смартфоны», – отмечает Сукумар. «Мы вложили значительные ресурсы в экосистему и в Qualcomm, чтобы искать способы компрессии моделей без потери качества».

Создать универсальный ИИ с такими ограничениями для мобильных устройств трудно, но компьютеры, особенно смартфоны, являются неисчерпаемым источником данных, которые можно подавать в модели для генерации «полезных» ответов. Поэтому большинство краевых ИИ‑решений ориентировано на узкоспецифические задачи: анализ скриншотов, предложения по календарю и т.п. Google заявляет, что его новейшие Pixel работают более чем со 100 ИИ‑моделями, как генеративными, так и традиционными.

Даже скептики ИИ признают, что ландшафт быстро меняется. Пока команды сокращают и оптимизируют модели для телефона или ноутбука, в облаке появляются новые модели, делающие эту работу избыточной. Именно поэтому сторонние разработчики медленно внедряют NPU‑обработку в свои приложения. Им приходится либо подключаться к уже существующей модели на устройстве, что влечёт ограничения и быстро меняющиеся цели разработки, либо развёртывать свои кастомные модели. Оба варианта пока не являются оптимальными.

Если облако быстрее и проще, зачем тратить силы на оптимизацию под край и тратить больше энергии на NPU? Переход к облаку подразумевает зависимость и доверие к операторам ИИ‑центров, что не всегда уместно.

«Мы всегда начинаем с приватности пользователя», – подчеркивает Сукумар из Qualcomm. Он объясняет, что лучшая инференция не является общей, а персонализирована на основе интересов и текущих дел пользователя. Точная настройка моделей требует личных данных, и их безопаснее хранить и обрабатывать локально.

Даже когда компании говорят правильные вещи о приватности в своих облачных сервисах, гарантии далеки от реальности. Дружелюбный тон чат‑ботов подталкивает людей раскрывать личную информацию, а если помощник работает в облаке, ваши данные находятся там же. Судебный спор OpenAI с The New York Times может привести к миллионам частных чатов, переданным издателю. Взрывной рост генеративного ИИ и неопределённая регуляторная база делают будущее ваших данных неясным.

«Люди используют эти генеративные ИИ‑ассистенты как терапевтов», – отмечает Одани. «И никто не знает, не окажется ли всё это когда‑нибудь в открытом доступе».

Не все так озабочены. Зак утверждает, что Google построил «самую безопасную в мире облачную инфраструктуру», позволяя обрабатывать данные там, где достигаются лучшие результаты. В качестве примеров он приводит Video Boost и Pixel Studio, подчёркивая, что только облако Google способно обеспечить быструю и качественную работу этих сервисов. Недавно компания анонсировала систему Private AI Compute, которую она называет такой же безопасной, как локальная обработка.

Даже если это правда, у краевого ИИ есть свои плюсы – он надёжнее облачного сервиса. «На устройстве быстрее», – говорит Одани. «Иногда я разговариваю с ChatGPT, а Wi‑Fi отключается, и всё прерывается».

Сервисы, хостящие облачные ИИ‑модели, – это не просто один сайт; современный Интернет сильно взаимозависим, включающий CDN, DNS‑провайдеров, хостинг и другие сервисы, которые могут ухудшить работу или полностью отключить ваш любимый ИИ при сбое. Когда Cloudflare недавно пережил самоустроенный сбой, пользователи ChatGPT были недовольны недоступностью чат‑бота. Локальные ИИ‑функции не имеют такого недостатка.

Все согласны, что гибридный подход необходим для действительно полезных ИИ‑фич (если такие существуют): отправлять данные в более мощные облачные сервисы при необходимости – так делают Google, Apple и все остальные производители телефонов. Однако стремление к бесшовному опыту может скрывать, что происходит с вашими данными. Чаще всего ИИ‑фичи на вашем телефоне не работают локально, даже если устройство имеет необходимый аппарат.

Возьмём, к примеру, новый OnePlus 15. Он оснащён новейшим Snapdragon 8 Elite Gen 5 от Qualcomm, у которого NPU на 37 % быстрее предыдущего – сколько бы это ни стоило. Несмотря на весь потенциал локального ИИ, OnePlus сильно зависит от облака для анализа персональных данных. Такие функции, как AI Writer и AI Recorder, отправляют запросы на серверы компании, что OnePlus уверенно позиционирует как полностью безопасное и приватное решение.

Аналогично, Motorola в летнее время выпустила новую линейку складных Razr‑телефонов, насыщенных ИИ‑фичами от разных провайдеров. Эти устройства могут резюмировать уведомления с помощью ИИ, но многие пользователи удивятся, насколько этого происходит в облаке, если не изучат условия использования. При покупке Razr Ultra суммирование происходит на устройстве, тогда как более дешевые модели с меньшим объёмом RAM и мощностью NPU используют облачные сервисы. Motorola снова уверяет в безопасности системы, но более надёжным вариантом было бы переоптимизировать модель под дешёвые телефоны.

Даже когда OEM делает ставку на аппарат NPU, результаты могут быть скудными. Посмотрите на Daily Hub от Google и Now Brief от Samsung. Эти функции обещают «переварить» все данные телефона и предложить полезные рекомендации и действия, но в реальности они в основном показывают события календаря. Google даже временно удалил Daily Hub с Pixel, поскольку функция почти ничего не делала, хотя компания считается пионером локального ИИ с Gemini Nano. За последние месяцы Google перенёс часть мобильного ИИ‑опыта с локального на облачную обработку.

Эти «мощные» модели, кажется, выигрывают, и не мешает тому, что компании получают больше данных, когда пользователи взаимодействуют с их частными облачными сервисами.

Интерес к локальному ИИ велик, но пока он не привёл к настоящей революции в вашем кармане. Большинство достижений ИИ опираются на постоянно растущие масштабы облачных систем и универсальные модели, работающие там. Эксперты отрасли говорят, что за кулисами ведётся масштабная работа по сжатию ИИ‑моделей для телефонов и ноутбуков, но понадобится время, чтобы это отразилось на практике.

Тем временем локальная ИИ‑обработка существует в ограниченном виде. Google по‑прежнему использует NPU Tensor для обработки чувствительных данных в таких функциях, как Magic Cue, а Samsung активно использует AI‑ориентированные чипсеты Qualcomm. Хотя Now Brief имеет сомнительную полезность, Samsung осознаёт, как зависимость от облака может влиять на пользователей, предлагая переключатель в системных настройках, который ограничивает ИИ‑обработку только устройством. Это сокращает число доступных ИИ‑фич, и остальные работают хуже, но вы точно знаете, что ваши личные данные не передаются. На рынке смартфонов аналогичной опции нет.

Представитель Samsung Элис Сембах подчеркнула, что усилия компании в области ИИ направлены на улучшение опыта при сохранении контроля пользователя. «Переключатель локальной обработки в One UI отражает этот подход. Он даёт возможность выполнять ИИ‑задачи на устройстве для более быстрой работы, повышенной приватности и надёжности даже без подключения к сети», – заявила она.

Интерес к edge‑ИИ может быть полезен, даже если вы им не пользуетесь. Планирование ИИ‑насыщенного будущего стимулирует производителей вкладываться в лучшее оборудование – например, в большее количество памяти для запуска всех этих теоретических ИИ‑моделей.

«Мы определённо рекомендуем нашим партнёрам увеличить объём RAM», – сказал Сукумар. Действительно, Google, Samsung и другие уже нарастили объём памяти в значительной степени именно для поддержки локального ИИ. Даже если облако выигрывает, дополнительный RAM нам пригодится.

Самое просматриваемое: