Moffett AI: не стоит стрелять из пушки по воробьям — переосмысление стоимости «inference»

ии чипы Moffett Ai инференс Nvidia разреженность pandaily.com

В гонке за доминирование в сфере аппаратного обеспечения для ИИ долгое время господствовала простая мудрость: больше вычислительной мощности — лучше. Модели с триллионом параметров требуют инфраструктуры триллионного масштаба, и индустрия добросовестно создавала всё более крупные кластеры NVIDIA. — pandaily.com

В гонке за доминирование в сфере аппаратного обеспечения для ИИ долгое время господствовала простая мудрость: больше вычислительной мощности — лучше. Модели с триллионом параметров требуют инфраструктуры триллионного масштаба, и индустрия добросовестно создавала всё более крупные кластеры графических процессоров NVIDIA, чтобы накормить этого зверя. Однако Moffett AI, восходящий игрок в экосистеме китайских ИИ-чипов, делает ставку на то, что этот универсальный подход крайне расточителен.

“Мы не используем пушку, чтобы стрелять по комарам”, — говорит Го Вэйцзюнь, генеральный директор Moffett AI, формулируя философию, идущую вразрез со всей индустрией аппаратного обеспечения для ИИ. Его мысль проста: подавляющему большинству реальных задач инференса (вывода) не нужны тысячи терафлопс необработанной вычислительной мощности. Умный дверной звонок, идентифицирующий посетителя, заводской датчик, классифицирующий дефект, голосовой помощник, разбирающий простую команду — эти задачи обслуживаются оборудованием, разработанным для обучения моделей масштаба GPT.

Ответ Moffett AI — специализация. Вместо того чтобы гнаться за пиковым значением TOPS (триллионы операций в секунду) как за определяющим эталоном — метрикой, в которой NVIDIA достигла мастерства, — компания фокусируется на том, что она называет “стоимостью одного инференса”. Этот сдвиг полностью меняет постановку задачи: цель состоит не в максимизации пропускной способности, а в точном соответствии вычислительной мощности решаемой задаче. Легковесная модель, работающая на эффективно выделенном кремнии, может обеспечить приемлемую точность при долевой стоимости энергии и оборудования.

Центральное место в этой стратегии занимает работа Moffett над поддержкой разреженности (sparsity). Нейронные сети в реальном мире часто имеют избыточное количество параметров; многие из их весов вносят незначительный вклад в конечный результат. Разрабатывая чипы, способные пропускать нулевые или близкие к нулю веса в процессе вычислений, Moffett стремится обеспечить ощутимый прирост производительности без масштабирования самого оборудования. Этот подход перекликается с методами, используемыми в прунинге (обрезке) и квантовании, но встраивает эффективность непосредственно в кремний.

Выбор времени стратегически верен. По мере того как инференс ИИ смещается из облачных дата-центров на периферийные устройства — телефоны, камеры, датчики, автомобили — расчеты избыточного выделения ресурсов перестают работать. Бюджеты энергопотребления ограничены, задержка имеет значение, а стоимость единицы должна резко упасть, чтобы ИИ стал жизнеспособным в масштабе. Дизайн Moffett, ориентированный на инференс, нацелен именно на этот пробел.

Конечно, конкурировать с устоявшейся экосистемой CUDA от NVIDIA — непростая задача. Но Moffett не пытается вытеснить NVIDIA в высоком сегменте. Вместо этого компания создает решения для “длинного хвоста” — миллионов повседневных задач инференса, где вычислительной мощности пушки просто избыточно. В мире, где ИИ становится повсеместным, это может оказаться именно той целью, которая нужна.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: