Infinigence, китайская компания, занимающаяся инфраструктурой искусственного интеллекта и тесно связанная с факультетом электронной инженерии Университета Цинхуа, стала уникальным игроком в цепочке создания стоимости ИИ, позиционируя себя как нейтральная «фабрика токенов» между производителями чипов и разработчиками моделей.
Согласно данным, обнародованным в мае, объем вызовов токенов на платформе Agentic MaaS компании вырос более чем в 20 раз с декабря по апрель, что отражает структурный сдвиг в индустрии ИИ: инференс (вывод) превзошел обучение в качестве доминирующей вычислительной нагрузки. Прогнозируется, что к 2026 году мировые корпоративные расходы на инфраструктуру для инференса достигнут 68 миллиардов долларов, по сравнению с 45 миллиардами долларов для инфраструктуры обучения.
Infinigence не разрабатывает общецелевые большие языковые модели (LLM), не производит чипы и не создает потребительские приложения. Вместо этого она занимает структурную нишу между спросом и предложением — планируя, сопоставляя и оптимизируя вычислительные ресурсы для их эффективного преобразования в токены. Ее система Agentic Infra требует интеграции как от поставщиков чипов, так и от компаний-разработчиков моделей и разработчиков приложений, создавая бизнес-модель, определяемую технологиями, где программное обеспечение и алгоритмы диктуют цепочку создания стоимости.
Формула производительности ИИ компании сосредоточена на токенной экономике: Производительность ИИ = Масштаб Интеллекта x Эффективность Производства Токенов x Конверсия Ценности Токенов. По мере того как генерация токенов достигает коммерческого 闭环 (замкнутого цикла), маховик ускоряется — больше пользователей стимулируют больший спрос, что позволяет улучшить оптимизацию и распределение ресурсов, что повышает эффективность и привлекает еще больше пользователей.
Ключевое техническое достижение, лежащее в основе эффективности Infinigence, — это разделение этапов prefill и decode. Инференс LLM состоит из двух фаз: prefill (понимание контекста, требующее больших вычислительных ресурсов) и decode (генерация токенов, требующая интенсивного обмена данными). Назначая эти этапы различным типам чипов, оптимизированным для каждой рабочей нагрузки, Infinigence добилась 5–10-кратного улучшения соотношения затрат и производительности для моделей с триллионом параметров. Это также создало реальную точку входа для отечественных китайских чипов в сценарии prefill, предоставив 国产 (отечественному) оборудованию практический путь развертывания.
Генеральный директор Ся Лисюэ сравнивает текущий момент с переходом от 3G к 4G в мобильном интернете. Подобно тому, как самые трансформационные приложения той эпохи были не WeChat или Taobao, а организации, перестроившие свою деятельность вокруг дешевых данных, победителями токенной эры могут стать не отдельные «убийственные» приложения, а небольшие команды из 10–20 человек, использующие ИИ для достижения производительности, далеко превосходящей традиционные организации их размера.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




