Nvidia планирует представить архитектуру в своей грядущей платформе Vera Rubin, которая позволит графическим процессорам выдавать команды хранения данных, полностью минуя центральный процессор, — это изменение, по мнению известного исследователя полупроводников, может подготовить почву для нового класса флеш-памяти, предлагающей более чем в шестнадцать раз большую емкость по сравнению с современными стеками высокоскоростной памяти. Сон Ки Хван, профессор кафедры системной полупроводниковой инженерии в Университете Ёнсе, раскрыл эти планы 18 мая на 2-м саммите по передовым полупроводниковым устройствам в Сеуле, что стало одной из первых публичных характеристик стратегии хранения данных Nvidia для поколения Vera Rubin.
Что GIDS делает, чего не делает GPU Direct Storage
Существующая архитектура Nvidia GPU Direct Storage уже сокращает путь передачи данных, позволяя хранилищу напрямую передавать данные в графический процессор, минуя системную DRAM. Однако каждый запрос по-прежнему инициируется центральным процессором. GPU-Initiated Direct Storage Access, или GIDS, полностью исключает центральный процессор из цикла: сам графический процессор выдает команду на чтение в хранилище, извлекает данные и управляет передачей — без необходимости задействовать поток центрального процессора.
«GIDS — это шаг за пределы GPU Direct Storage», — сказал Сон. «Графический процессор извлекает данные напрямую из хранилища, и Nvidia открыла с его помощью новый рынок».
Microsoft и AMD также оценивают аналогичные подходы к хранению данных, управляемые GPU, отметил Сон, предполагая, что архитектура становится фокусом внимания отрасли, а не проприетарным решением Nvidia.
Обоснование устранения посредничества центрального процессора носит структурный характер. В традиционной вычислительной установке фон Неймана центральный процессор получает запрос на хранение, извлекает данные в DRAM, а затем передает их графическому процессору — два перехода, которые потребляют время и энергию на каждом этапе. Центральные процессоры фундаментально ограничены количеством потоков, которыми они могут управлять одновременно, что делает их узким местом при питании параллельного аппетита современных ускорителей ИИ. Графический процессор, напротив, может одновременно отправлять десятки тысяч параллельных операций, что делает его гораздо более подходящим для прямого управления высокопроизводительным вводом-выводом хранилища.
Почему GIDS требует более высокого класса флеш-памяти
Возвышение графического процессора до контроллера хранения данных повышает требования к базовой флеш-памяти NAND. Хранилище теперь должно реагировать со скоростью и в масштабе графического процессора, для чего не предназначены традиционные твердотельные накопители — даже быстрые NVMe-накопители. Именно в этом зазоре и появляется High Bandwidth Flash, или HBF.
HBF применяет тот же принцип вертикального укладки, который сделал возможной High Bandwidth Memory. Множество кристаллов флеш-памяти NAND укладываются друг на друга и соединяются сквозными кремниевыми переходными отверстиями (TSV), что резко увеличивает пропускную способность и плотность, которую может обеспечить один корпус. Sandisk, пионер этой концепции, нацелена на флеш-стек из 16 кристаллов плюс базовый кристалл, который занимает ту же физическую площадь, что и корпус HBM, обеспечивая пропускную способность чтения 1,6 терабайта в секунду и емкость до 512 гигабайт на стек — по сравнению с примерно 64 гигабайтами на стек, которые в настоящее время предлагает HBM4.
Преимущество NAND над DRAM в плотности является ключевым рычагом. NAND обеспечивает примерно в тридцать раз большую плотность бит на единицу площади по сравнению с DRAM. Это соотношение означает, что корпус графического процессора, сочетающий шесть стеков HBF с двумя стеками HBM, может вмещать около 3120 гигабайт общей памяти — по сравнению со 192 гигабайтами для конфигурации только с восемью стеками HBM сегодня. Практическое следствие, отметил Сон, заключается в возможности запускать модели ИИ с примерно в шестнадцать раз большим количеством параметров на одном корпусе.
«Хотя HBF еще не является мейнстримной отраслевой технологией, я считаю, что она может решить технологические проблемы эпохи агентного ИИ», — сказал Сон. «Если мы посмотрим за пределы уровня устройства на всю систему и рынок и примем новые технологии, мы сможем возглавить сдвиг парадигмы».
Жесткое ограничение: HBF не может заменить HBM
Прирост емкости сопряжен с четкой границей. Флеш-память NAND выдерживает только около 100 000 циклов записи-стирания до деградации — ничтожная доля практически неограниченной долговечности DRAM при записи. Это ограничение записи делает HBF непригодной для любых рабочих нагрузок, которые часто выполняют запись.
Наиболее важным примером является кэш «ключ-значение», или KV-кэш, который является оперативной памятью, которую модель ИИ постоянно записывает и перезаписывает во время инференса по мере обработки каждого нового токена последовательно. KV-кэш не может быть перенесен на HBF. Большая часть скорости, теряемой во флеш-памяти, приходится на цикл записи — ограничение, присущее способу хранения заряда в NAND, — в то время как производительность чтения флеш-памяти в принципе может соответствовать или превосходить DRAM.
Что HBF может хранить, так это параметры модели — обученные веса, которые определяют поведение модели ИИ. Параметры записываются один раз во время обучения и остаются фактически доступными только для чтения во время инференса, что почти не создает износа для NAND. Они также являются самой большой составляющей того, что должна хранить система ИИ: набор параметров большой языковой модели превосходит ее KV-кэш по размеру на порядки. Хранение параметров в HBF при сохранении KV-кэша в HBM — это гибридная архитектура, которую Сон и отраслевые аналитики рассматривают как естественный режим работы ускорителей ИИ следующего поколения.
Стивен Ву, научный сотрудник и выдающийся изобретатель в Rambus, охарактеризовал HBF как технологию, «привлекающую внимание по мере того, как системные архитекторы ищут новые уровни памяти, расположенные между DRAM и традиционной NAND». Си-Вэй Линь, исполнительный директор по прикладной инженерии в Synopsys, отметил, что технология была разработана специально для хранения всех параметров моделей ИИ рядом с графическим процессором, устраняя необходимость их вывода из корпуса.
Затраты энергии и аргументы против большего количества стеков HBM
Давление, направленное на поиск альтернативы конфигурациям только с HBM, связано не только с емкостью. Сон привел оценки, предполагающие, что примерно половина общей системной мощности в современных серверах ИИ потребляется при перемещении данных между физически разделенными графическими процессорами и стеками HBM. Добавление большего количества слоев HBM не решает проблему физики — данные все равно должны перемещаться между корпусами. Размещение плотной, быстрой флеш-памяти непосредственно внутри корпуса графического процессора фундаментально сокращает этот путь, потенциально снижая энергетические затраты на перемещение данных, даже по мере расширения размеров моделей.
Sandisk, SK Hynix и гонка стандартизации
Sandisk и SK Hynix официально оформили усилия по стандартизации HBF в феврале 2026 года, учредив специальный рабочий поток в рамках Open Compute Project для определения универсальных спецификаций. Samsung также присоединилась к этому усилию. Sandisk нацелена на первые образцы памяти HBF во второй половине 2026 года, а первые устройства для инференса ИИ на базе HBF, как ожидается, будут представлены в начале 2027 года. Алпер Илкбахар, технический директор Sandisk, заявил, что это сотрудничество «устанавливает планку для следующей эры вычислений ИИ».
Wiwynn, производитель серверов, продемонстрировала инициативу Nvidia Storage-Next на GTC 2026 в марте, описав архитектуру хранения данных, инициируемую графическим процессором, которая управляет вводом-выводом непосредственно через массив NVMe из 96 дисков с помощью графического процессора — ранний коммерческий сигнал того, что концепция GIDS уже встраивается в инфраструктуру масштаба стойки.
Сама Vera Rubin — платформа, которую Сон определил как первое развертывание GIDS, — находится в полном производстве, а доступность от партнеров намечена на вторую половину 2026 года, согласно пресс-релизу Nvidia от января 2026 года. Среди первых облачных провайдеров, развертывающих экземпляры на базе Vera Rubin, — AWS, Google Cloud, Microsoft и Oracle Cloud Infrastructure.
Сближение этих сроков означает, что архитектура GIDS и обеспечивающий ее уровень флеш-памяти — это не отдаленный пункт дорожной карты. Они появляются вместе, в одном цикле продукта, при этом инфраструктура стандартизации для их поддержки уже строится. Сможет ли эта комбинация реализовать обещание 16-кратного увеличения емкости, будет зависеть от того, насколько хорошо стек программного обеспечения ИИ адаптируется к режиму, ориентированному на чтение и осторожный в отношении записи, который требует HBF.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Allen Lee




