Компания Meta* сегодня анонсировала четыре последовательные генерации своих фирменных ускорителей для обучения и инференса Meta* Training and Inference Accelerator (MTIA), разработанных в партнерстве с Broadcom и запланированных к развертыванию в течение следующих двух лет. «Мы разработали конкурентоспособную стратегию для MTIA, отдав приоритет быстрому итеративному развитию, — говорится в пресс-релизе Meta*, — наряду с ориентацией на инференс и беспрепятственным внедрением за счет нативной разработки на основе отраслевых стандартов». Четыре новых чипа — это MTIA 300, 400, 450 и 500. MTIA 300 уже запущен в производство для обучения ранжирования и рекомендаций, в то время как 400 в настоящее время проходит лабораторные испытания перед развертыванием в центрах обработки данных. MTIA 450 и 500 нацелены на инференс ИИ и запланированы к массовому развертыванию в начале 2027 года и позже в 2027 году соответственно. Согласно техническому блогу Meta*, пропускная способность HBM увеличивается в 4,5 раза, а вычислительные FLOPs — в 25 раз в диапазоне от MTIA 300 до MTIA 500.
Meta* заявляет, что MTIA 450 удваивает пропускную способность HBM по сравнению с MTIA 400, описывая ее как «значительно более высокую, чем у существующих ведущих коммерческих продуктов», или, другими словами, чем у Nvidia H100 и H200. MTIA 500 затем добавляет еще 50% пропускной способности HBM поверх 450, а также до 80% больше емкости HBM. Действительно, именно пропускная способность HBM, а не «сырые» FLOPs, является основным узким местом на этапе декодирования инференса трансформеров, а основные GPU спроектированы для максимизации FLOPs для крупномасштабного предварительного обучения. Это означает, что они несут накладные расходы по стоимости и энергопотреблению, которые, по словам Meta*, излишни для рабочих нагрузок инференса.
Подход Meta* также включает аппаратное ускорение для FlashAttention и вычислений нейронных сетей типа «смесь экспертов» (mixture-of-experts), а также пользовательские типы данных с низкой точностью, совместно разработанные для инференса. MTIA 450 поддерживает MX4, обеспечивая в шесть раз больше MX4 FLOPs, чем FP16/BF16, с вычислениями смешанной низкой точности, которые позволяют избежать накладных расходов на программное обеспечение при преобразовании типов данных.
Что касается конечного развертывания, MTIA 400, 450 и 500 будут использовать одну и ту же инфраструктуру шасси, стоек и сети, что означает, что каждое новое поколение чипов встраивается в существующий физический объем для легкой взаимозаменяемости. Именно эта модульность, по словам Meta*, лежит в основе примерно шестимесячного цикла выпуска чипов MTIA, что намного быстрее, чем типичный отраслевой цикл в один-два года.
Программный стек работает нативно с PyTorch, vLLM и Triton, с поддержкой torch.compile и torch.export, чтобы производственные модели могли развертываться одновременно как на GPU, так и на MTIA без переписывания кода специально для MTIA. Meta* заявила, что уже развернула сотни тысяч чипов MTIA в своих приложениях для инференса органического контента и рекламы.
Все это произошло всего через две недели после того, как Meta* раскрыла долгосрочное соглашение об инфраструктуре ИИ на 100 миллиардов долларов с AMD, что свидетельствует о более широких усилиях по снижению зависимости от Nvidia в различных частях стека ИИ Meta*, при этом MTIA остается в центре рабочих нагрузок инференса.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Luke James




