Компания Inspur Information представила свой гипермасштабируемый AI-сервер YuanNao HC1000, заявив о снижении затрат на вывод больших моделей до 1 юаня (около 0,14 доллара США) за миллион токенов. По словам компании, это важная веха, устраняющая ключевое препятствие для масштабного развертывания AI-агентов.
По словам директора по стратегии AI Inspur Лю Цзюня, использование GPU во время вывода обычно достигает лишь 5–10%, что значительно ниже 50%+ использования, наблюдаемого в задачах обучения. HC1000 решает эту неэффективность благодаря полностью симметричной сверхскоростной архитектуре DirectCom и гипермасштабируемой конструкции, которая разделяет вычислительные рабочие процессы и оптимизирует распределение ресурсов.
Лю заявил, что новая архитектура может увеличить MFU (Model FLOPs Utilization) одной карты до 5,7 раз, что значительно снижает затраты на вывод. Он подчеркнул, что по мере экспоненциального роста потребления токенов, постепенной оптимизации затрат будет недостаточно. Необходимы фундаментальные изменения в вычислительных архитектурах, и экономическая эффективность станет “лицензией на выживание” для AI-компаний в грядущую эпоху.
Источник: liangziwei
Всегда имейте в виду, что редакции некоторых изданий могут придерживаться предвзятых взглядов в освещении новостей.
8/6
Автор – Pandaily




