Так называемая «стена памяти» является основным ограничителем производительности для многих рабочих нагрузок искусственного интеллекта (ИИ), и память с высокой пропускной способностью (HBM) не всегда является панацеей, поскольку вычислительная мощность растет быстрее, чем пропускная способность памяти. В среду компания Qualcomm представила свою архитектуру вычислений вблизи памяти HBC под названием High-Bandwidth Compute (HBC), призванную преодолеть «стену памяти» и обеспечить линейный рост производительности определенных рабочих нагрузок ИИ.
Подход Qualcomm к вычислениям вблизи памяти довольно прямолинеен: компания отделяет ускоритель ИИ от системы на кристалле (SoC) и размещает его под стеком DRAM LPDDR. Ускоритель HBC соединяется со стеком LPDDR с помощью сквозных кремниевых переходных отверстий (through-silicon vias) для обеспечения максимальной пропускной способности и емкости без использования дорогостоящей памяти HBM и передовой упаковки. Qualcomm не раскрывает фактическую пропускную способность, которую обеспечивает HBC, хотя компания заявляет, что она предлагает в 6 раз большую пропускную способность на ватт по сравнению с HBM и более чем в 200 раз большую емкость по сравнению с SRAM на кристалле.
«Мы отделили ускоритель ИИ от XPU и разместили XPU непосредственно под стеком DRAM», — сказал Тони Пилис, исполнительный вице-президент и генеральный менеджер подразделения центров обработки данных в Qualcomm. «Это очень важно, поскольку это дает нам преимущества в производительности SRAM с плотностью и емкостью стековой памяти. По сути, заторы, связанные с HBM, устранены. Ценность для отрасли заключается в более низком энергопотреблении, меньшем тепловыделении и устранении дорогостоящего кремниевого интерпозера, используемого в решениях HBM. Мы также можем развернуть несколько стеков HBC в одном вычислительном устройстве с использованием стандартной упаковки, что обеспечивает значительное преимущество по производительности на единицу стоимости».
Размещение DRAM на логике или рядом с ней — не новость. Все производители DRAM экспериментировали с архитектурами вычислений вблизи памяти, но им не удалось сделать их популярными. Недавно GUC, компания, занимающаяся разработкой ASIC без собственного производства, предложила свою технологию DRAM-on-Logic (DoL), которая размещает один-четыре слоя DRAM поверх логики для достижения пропускной способности памяти около 5 ТБ/с и обеспечения более высокой производительности, чем у некоторых подсистем памяти HBM3E, без использования дорогостоящей передовой упаковки и стеков HBM3E.
Поскольку Qualcomm не раскрывает фактические показатели производительности, трудно сравнить ее HBC с предложением GUC. Однако самый большой подводный камень HBC заключается в том, что Qualcomm не сообщает нам, что именно делает ускоритель HBC. Теоретически это может быть что угодно: специализированный для трансформеров движок вблизи памяти, более общий массив тензорных ядер или какая-то логика предварительной обработки для вывода или обучения ИИ.
Наряду с технологией HBC Qualcomm также раскрыла свою дорожную карту HBC. В то время как ускоритель AI200 компании, который выйдет позже в этом году, будет использовать LPDDR5X и обеспечит 43 ТБ оперативной памяти на стойку, его преемник AI250 будет использовать HBC 1-го поколения, который обеспечит в 18 раз большую пропускную способность, чем AI200. AI300 будет использовать HBC 2-го поколения, который обеспечит в 54 раза большую пропускную способность, чем AI300».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Anton Shilov




