Подавляющее большинство ведущих суперкомпьютеров и кластеров искусственного интеллекта сегодня используют центральные процессоры (CPU) для задач общего назначения и оркестрации, а также графические процессоры (GPU) для ИИ при выполнении массовых параллельных вычислительных нагрузок, чтобы достичь исключительно высокой производительности класса ExaFLOPS. Однако в Китае мы наблюдаем иную тенденцию: в последние годы страна развернула ряд суперкомпьютеров исключительно на базе CPU для рабочих нагрузок ИИ и ВЦО, что во многом обусловлено запретами США на поставки GPU, которые не позволяют стране получить достаточное количество этих ускорителей для суперкомпьютеров. Например, Национальный суперкомпьютерный центр Китая недавно ввел в эксплуатацию свою машину класса 1.54 ExaFLOPS, использующую 20 480 процессоров на базе Armv9.
Суперкомпьютер LineShine основан на специализированных процессорах LX2 на базе Armv9, разработанных специально для крупномасштабных рабочих нагрузок ИИ и ВЦО. Национальный суперкомпьютерный центр Китая (NSCC) в Шэньчжэне не раскрывает разработчика процессора LX2, хотя Джон Педи из Jon Peddie Research прямо называет его процессором «Huawei LX2». Тем временем, этот CPU может быть специализированным HPC-процессором Huawei, совместной разработкой NSCC/Huawei или совершенно отдельным процессором для ВЦО, поддерживаемым правительством Китая.
Каждый процессор LX2 использует два вычислительных чиплета и имеет в общей сложности 304 ядра CPU, организованных в восемь кластеров CPU, по 38 ядер в каждом. Каждое ядро включает блоки Arm SVE (Scalable Vector Extension) и SME (Scalable Matrix Extension), которые ускоряют векторные и матричные операции, используемые при обучении ИИ и научных вычислениях, поддерживая форматы данных FP64, FP32, BF16, FP16 и INT8. Каждое ядро оснащено кэшем инструкций L1 объемом 32 КБ и кэшем данных L1 объемом 32 КБ, в то время как каждый кластер использует общий кэш L2 объемом 28,5 МБ.
Процессор использует весьма необычную подсистему памяти, которая сочетает 32 ГБ HBM на кристалле, обеспечивающей пропускную способность до 4 ТБ/с, и до 256 ГБ внешней памяти DDR5. Аналогичная подсистема памяти использовалась в процессоре Fujitsu A64FX на базе Arm, который питает суперкомпьютер Fugaku, однако LX2, вероятно, является первым в отрасли CPU на базе Armv9 для ИИ и ВЦО, использующим такую подсистему памяти.
Каждый чиплет содержит четыре домена HBM и четыре домена DDR; на один процессор приходится 16 доменов NUMA. Доступ к HBM сильно зависит от локальности, тогда как доступ к памяти DDR более однороден в пределах кристалла и совместно используется кластерами. Такое поведение вынудило разработчиков создавать методы размещения памяти и планирования, осведомленные о топологии (что особенно полезно для обучения ИИ), которые выполняются выделенным движком SDMA для перемещения данных между DDR и HBM.
Что касается производительности, один процессор LX2 обеспечивает 60,3 TFLOPS производительности FP64, пропускную способность 240 TFLOPS для BF16/FP16 и 960 TOPS для INT8. В отличие от традиционных серверных CPU, архитектура, по-видимому, сильно оптимизирована для плотных рабочих нагрузок ИИ и матричных вычислений, несмотря на то, что остается центрированной на CPU. В статье отмечается, что поддержание высокой утилизации матричных движков SME потребовало обширного совместного проектирования ядер, планирования среды выполнения, управления резидентностью кэша и размещения тензоров в иерархии HBM и DDR.
Суперкомпьютер LineShine состоит из 20 480 вычислительных узлов, каждый узел содержит два процессора LX2, а каждый процессор LX2 имеет 304 ядра CPU. Таким образом, вся система использует 40 960 процессоров LX2, содержащих в общей сложности 2 451 840 ядер CPU. Суперкомпьютер соединен высокоскоростной сетью LingQi (LQLink) со скоростью 1,6 Тбит/с на узел.
Машина обеспечивает производительность обучения 1,54 ExaFLOP/с в формате BF16 и достигает пика в 2,16 ExaFLOP/с при обучении генеративной модели сжатия данных наблюдения за Землей с 6,3 миллиардами параметров. Поскольку такие компании, как xAI, не публикуют пиковую производительность своих ИИ-кластеров, использующих сотни тысяч ИИ-GPU от Nvidia, мы не можем сравнить производительность LineShine с производительностью Colossus или других передовых ИИ-кластеров. Тем не менее, теоретическая пиковая производительность Colossus от xAI, по мнению, составляет 497,9 ExaFLOPS, поэтому даже при утилизации FLOPS модели около 15% (как у LineShine) она может достигать примерно 75 ExaFLOPS.
Что касается теоретической пиковой производительности FP64, эти 40 960 процессоров LX2 могут обеспечить 2,47 ExaFLOPS, хотя мы не знаем фактической пропускной способности FP64 этой машины, поскольку она сильно зависит от множества факторов.
Суперкомпьютеры для ИИ и ВЦО исключительно на базе CPU предлагают ряд преимуществ по сравнению с традиционными гетерогенными системами CPU+GPU, особенно для сложных научных задач, сочетающих обучение ИИ с массивным приемом данных, предварительной обработкой, взаимодействием с хранилищем, симуляцией и оркестрацией.
Поскольку все выполняется на одном процессоре и в одном адресном пространстве памяти, они позволяют избежать многих сложностей, связанных с гетерогенными вычислениями, таких как дорогостоящая и прожорливая по пропускной способности передача данных между CPU и GPU, сложные модели программирования, ограничения памяти GPU и программные стеки, специфичные для ускорителей.
Кроме того, однородные системы на базе CPU могут предоставлять гораздо большие когерентные пулы памяти, объединяя HBM с большими объемами DDR, что полезно для обработки огромных научных наборов данных, генерации с дополненным поиском и окон с большим контекстом.
Кроме того, они привлекательны для приложений «ИИ для науки», которые включают нерегулярный поток управления, распределенный ввод-вывод, каналы с интенсивным обменом данными и шаблоны выполнения, которые неэффективно отображаются на GPU.
Более того, системы исключительно на CPU могут более естественно интегрироваться с традиционными средами ВЦО и выполнять регулярные задачи суперкомпьютеров (например, симуляции), что особенно полезно для тех, кому требуется как обучение/инференс ИИ, так и ВЦО.
И наконец, такие системы снижают зависимость от иностранных ускорителей и платформ, таких как GPU Nvidia и программные экосистемы CUDA, что важно для Китая.
Однако существует большой компромисс: системы исключительно на CPU, как правило, менее энергоэффективны и обеспечивают более низкую плотную пропускную способность ИИ по сравнению с суперкомпьютерами на базе GPU, поэтому индустрия делает ставку на гетерогенные архитектуры CPU+GPU.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Anton Shilov




