4 февраля команда Tencent по инфраструктуре ИИ Hunyuan объявила об открытом выпуске HPC-Ops — высокопроизводительной библиотеки операторов производственного уровня, предназначенной для инференса больших языковых моделей.
Разработанная с нуля для устранения узких мест в реальных производственных условиях, HPC-Ops использует архитектурную абстракцию, глубокую адаптацию к микроархитектуре и оптимизацию на уровне инструкций, чтобы приблизить основные операторы к аппаратным пределам производительности. В реальных тестах Tencent сообщает, что HPC-Ops увеличила пропускную способность инференса (QPM) моделей Hunyuan на 30% и улучшила QPM модели DeepSeek на 17%.
Тесты производительности, опубликованные Tencent, показывают существенный прирост производительности отдельных операторов: оператор внимания обеспечивает до 2,22 раза большую производительность по сравнению с FlashInfer/FlashAttention; GroupGEMM достигает до 1,88 раза по сравнению с DeepGEMM; а FusedMoE достигает до 1,49 раза большей производительности по сравнению с TensorRT-LLM.
Заглядывая в будущее, Tencent заявила, что разработка будет сосредоточена на разреженных операторах внимания для устранения узких мест, связанных с длинным контекстом, расширенных стратегиях квантования и ядрах совместной оптимизации вычислений и коммуникаций для снижения накладных расходов на связь при распределенном инференсе.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




