Moffett AI: не стоит стрелять из пушки по воробьям — переосмысление стоимости «inference»

Pandaily

03.06.2026

В гонке за доминирование в сфере аппаратного обеспечения для ИИ долгое время господствовала простая мудрость: больше вычислительной мощности — лучше. Модели с триллионом параметров требуют инфраструктуры триллионного масштаба, и индустрия добросовестно создавала всё более крупные кластеры графических процессоров NVIDIA, чтобы накормить этого зверя. Однако Moffett AI, восходящий игрок в экосистеме китайских ИИ-чипов, делает ставку на то, что этот универсальный подход крайне расточителен.

“Мы не используем пушку, чтобы стрелять по комарам”, — говорит Го Вэйцзюнь, генеральный директор Moffett AI, формулируя философию, идущую вразрез со всей индустрией аппаратного обеспечения для ИИ. Его мысль проста: подавляющему большинству реальных задач инференса (вывода) не нужны тысячи терафлопс необработанной вычислительной мощности. Умный дверной звонок, идентифицирующий посетителя, заводской датчик, классифицирующий дефект, голосовой помощник, разбирающий простую команду — эти задачи обслуживаются оборудованием, разработанным для обучения моделей масштаба GPT.

Ответ Moffett AI — специализация. Вместо того чтобы гнаться за пиковым значением TOPS (триллионы операций в секунду) как за определяющим эталоном — метрикой, в которой NVIDIA достигла мастерства, — компания фокусируется на том, что она называет “стоимостью одного инференса”. Этот сдвиг полностью меняет постановку задачи: цель состоит не в максимизации пропускной способности, а в точном соответствии вычислительной мощности решаемой задаче. Легковесная модель, работающая на эффективно выделенном кремнии, может обеспечить приемлемую точность при долевой стоимости энергии и оборудования.

Центральное место в этой стратегии занимает работа Moffett над поддержкой разреженности (sparsity). Нейронные сети в реальном мире часто имеют избыточное количество параметров; многие из их весов вносят незначительный вклад в конечный результат. Разрабатывая чипы, способные пропускать нулевые или близкие к нулю веса в процессе вычислений, Moffett стремится обеспечить ощутимый прирост производительности без масштабирования самого оборудования. Этот подход перекликается с методами, используемыми в прунинге (обрезке) и квантовании, но встраивает эффективность непосредственно в кремний.

Выбор времени стратегически верен. По мере того как инференс ИИ смещается из облачных дата-центров на периферийные устройства — телефоны, камеры, датчики, автомобили — расчеты избыточного выделения ресурсов перестают работать. Бюджеты энергопотребления ограничены, задержка имеет значение, а стоимость единицы должна резко упасть, чтобы ИИ стал жизнеспособным в масштабе. Дизайн Moffett, ориентированный на инференс, нацелен именно на этот пробел.

Конечно, конкурировать с устоявшейся экосистемой CUDA от NVIDIA — непростая задача. Но Moffett не пытается вытеснить NVIDIA в высоком сегменте. Вместо этого компания создает решения для “длинного хвоста” — миллионов повседневных задач инференса, где вычислительной мощности пушки просто избыточно. В мире, где ИИ становится повсеместным, это может оказаться именно той целью, которая нужна.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи

В тренде:

moffett ai, Nvidia, pandaily.com, ИИ, инференс, разреженность, чипы

Искать на сайте

Moffett AI: не стоит стрелять из пушки по воробьям — переосмысление стоимости «inference»

В тренде:

Похожие новости:

Moffett AI: не стоит стрелять из пушки по воробьям — переосмысление стоимости «inference»

В тренде:

Похожие новости:

Moonshot AI Kimi замораживает новые потребительские подписки: дефицит мощностей бьет

CSC Financial: ИИ-апгрейд спроса на PCB ускоряет локализацию высококлассного сухого

Алибаба выложила в открытый доступ Qwen3.8 с 2,4 триллиона параметров:

На что обратить внимание после визита Дженсена Хуанга в Японию