В этом месяце Amazon Web Services представила Graviton5 — процессор пятого поколения для серверов общего назначения собственной разработки, призванный конкурировать с отраслевыми ЦП от AMD и Intel в дата-центрах AWS. Новый процессор расширяет программу AWS по созданию собственных процессоров на базе Arm, предлагая до 192 ядер и 180 МБ кэш-памяти L3. Он разработан для конкуренции с высокопроизводительными процессорами AMD EPYC и Intel Xeon, потенциально заменяя некоторые из них в дата-центрах AWS.
Процессор AWS Graviton5 изготавливается по техпроцессу 3-нм класса, вероятно, компанией TSMC. Он включает 192 ядра Neoverse V3 и предположительно 180 МБ кэш-памяти L3. AWS заявляет, что новый ЦП обеспечит на 25% более высокую производительность по сравнению с предшественником, что представляется консервативной оценкой, учитывая удвоение количества ядер в Graviton5. Чип использует набор инструкций Armv9.2 ISA, который включает ряд улучшений микроархитектуры и пятикратное увеличение объема кэш-памяти L3.
Новый процессор уже доступен в рамках предварительного доступа в инстансах Amazon EC2 M9g. Запуск вычислительно-оптимизированных вариантов C9g и ориентированных на память R9g запланирован на 2026 год. По данным AWS, текущие инстансы EC2 M9g работают до 30% быстрее для баз данных, до 35% быстрее для веб-приложений и до 35% быстрее для задач машинного обучения по сравнению с M8g.
Amazon Web Services намеренно не раскрывает точные спецификации и внутреннюю архитектуру своего процессора Graviton5. Тем не менее, компания предоставляет сравнения с процессором предыдущего поколения Graviton4, что позволяет нам расшифровать некоторые детали и изучить их более подробно.
AWS и Arm официально подтверждают, что Graviton5 включает 192 ядра Neoverse V3 на кристалл, изготовленный по техпроцессу 3-нм класса. Это делает его самым плотным процессором в линейке Graviton и самым плотным процессором на базе Armv9.2, доступным на сегодняшний день. Внутренняя компоновка процессора была переработана для снижения накладных расходов на связь, и AWS заявляет о снижении задержки между ядрами до 33%, что особенно примечательно, учитывая удвоение количества ядер.
Говоря о Neoverse V3, нельзя не упомянуть разработанные Arm вычислительные подсистемы (CSS). Хотя Arm подтвердила, что мы имеем дело с Neoverse V3, ни Amazon, ни Arm не подтвердили, что Graviton5 использует CSS, разработанные Arm. Это означает, что в Graviton 5, скорее всего, используется уникальная разработка.
В сравнении производительности между ядром Neoverse V3 и его предшественником, Arm заявляет об увеличении на 9–16% по сравнению с Neoverse V2 в общих облачных нагрузках и до 84% в аналитике данных ИИ. Это одна из причин, по которой AWS так консервативно оценивает прирост производительности как для Graviton5, так и для вычислительно-интенсивных инстансов M9g в целом. Другая причина консервативной оценки производительности AWS заключается в том, что компания продает не передовую производительность, как AMD или Nvidia, а предсказуемую производительность за доллар и масштабируемость в облаке. Тем не менее, с 192-ядерным процессором AWS ставит себя в высшую лигу среди разработчиков ЦП.
Интересной особенностью Graviton5 является наличие кэш-памяти L3, а не системного кэша, как у Graviton4. Хотя L3 и SLC в ЦП для дата-центров имеют много общего, это не одно и то же. Традиционно кэш-память L3 является последним уровнем кэша, расположенным внутри каждого вычислительного блока или кластера ядер в ЦП дата-центра. L3 в основном обслуживает вычислительные нагрузки ЦП, уменьшая обращения к DRAM; он оптимизирован для низкой задержки и непосредственно участвует в протоколе когерентности ядра. Следовательно, L3 тесно связан с ядрами и физически расположен рядом с ними.
Напротив, SLC находится вне кластеров ядер на шине SoC и используется всеми ядрами ЦП, различными ускорителями, устройствами ввода-вывода, сетевыми картами и движками DMA. Он, как правило, значительно больше (часто 100–300+ МБ) и оптимизирован для пропускной способности, а не для задержки, поскольку действует как глобальный буфер, снижающий нагрузку на DRAM и обеспечивающий когерентный доступ для гетерогенных вычислительных блоков. SLC может улучшить масштабирование при очень большом количестве ядер и обеспечить унифицированную семантику памяти для ЦП, ГП и встроенных ускорителей — роль, которую традиционные кэши L3 сами по себе не могут выполнить.
Amazon публично не объяснила решение о дизайне, но, основываясь на архитектуре Graviton4 и наших знаниях о Graviton5, причина почти наверняка кроется в масштабируемости архитектуры. Переход от SLC в Graviton4 к большому кэшу L3 объемом 180 МБ в Graviton5 — это не косметическое изменение; оно отражает фундаментальные изменения в том, как 192-ядерный процессор перемещает данные, управляет задержками и поддерживает когерентность.
Архитектура Graviton4 — 96 ядер Neoverse V2, сетка CMN-700, 12 каналов DDR5-5600 — эффективно работает с централизованным или полуцентрализованным SLC. Однако удвоение количества ядер до 192 значительно увеличивает трафик в сетке, дистанцию между узлами и конкуренцию за любую унифицированную структуру кэша. В таком масштабе монолитный SLC почти наверняка стал бы узким местом задержки и не смог бы обеспечить заявленное AWS снижение задержки связи между ядрами до 33%. Распределенный кэш L3, распределенный по всей кристалле, позволяет горячим данным оставаться физически близко к вычислительным кластерам, снижая среднюю задержку доступа и улучшая общее поведение когерентности.
Пятикратное увеличение кэша, о котором заявляет AWS, подтверждает эту архитектурную необходимость. Масштабирование 36 МБ SLC Graviton4 с этим коэффициентом дает 180 МБ, а дополнительное заявление AWS — 2,6-кратное увеличение кэша на ядро при удвоенном количестве ядер — подразумевает около 187 МБ всего, что соответствует большому многосегментному L3, а не единому блоку SLC, который создал бы сложности с маршрутизацией.
Наконец, конструкции на основе L3 обеспечивают более предсказуемую производительность при многопользовательской работе, что крайне важно для AWS. В облачных нагрузках общий кэш испытывает сильное межпользовательское вмешательство и переменные задержки, поэтому при проектировании подсистем кэша разработчики должны учитывать сценарии использования AWS. В целом, переход к распределенному L3 был необходимым архитектурным развитием для Graviton5.
Подобно тому, как AWS не раскрыла многих деталей о других аспектах дизайна Graviton5, она также не раскрыла много информации о подсистеме памяти процессора. Само собой разумеется, что подсистема памяти Graviton5 мощнее, чем у Graviton4, поскольку она поддерживает более высокие скорости памяти, что, вероятно, означает, что она, по крайней мере, сохраняет 12-канальную подсистему памяти Graviton4, но с более высокими скоростями передачи данных (т. е. выше DDR5-5600).
12-канальная конструкция DDR5, работающая на частоте 6400 МТ/с, обеспечит общую пропускную способность около 614 ГБ/с, что соответствует примерно 3,2 ГБ/с на ядро. Это фактически меньше, чем 5,6 ГБ/с на ядро в случае Graviton4. Однако больший кэш L3 может компенсировать это снижение пропускной способности памяти. Опять же, мы не знаем точного количества каналов памяти, поддерживаемых Graviton5.
Пропускная способность ввода-вывода также увеличилась, по данным AWS: пропускная способность сети в среднем увеличилась на 15% в зависимости от размера инстанса, а в самых крупных конфигурациях — до двух раз. Пропускная способность хранилища через Amazon EBS увеличилась в среднем примерно на 20%, согласно AWS. Эти достижения призваны повысить производительность не только для ресурсоемких приложений, но и для распределенных систем, которые зависят от быстрого хранения и сетевых подключений.
В области безопасности Graviton5 построен на базе системы AWS Nitro System с картами Nitro шестого поколения, которые отвечают за виртуализацию, сетевые подключения и хранение данных. AWS также представила новый компонент под названием Nitro Isolation Engine, который компания описывает как формально проверенный уровень изоляции. Вместо того чтобы полагаться исключительно на традиционную проверку безопасности, Isolation Engine использует математические доказательства для демонстрации того, что рабочие нагрузки разделены друг от друга и от операторов AWS. Архитектура обеспечивает модель нулевого доступа операторов, и AWS планирует разрешить клиентам просматривать реализацию и формальные доказательства, лежащие в ее основе, для обеспечения максимальной безопасности. Такие меры безопасности могут быть частью усилий компании по привлечению клиентов, которые традиционно использовали локальные серверы.
Новый процессор Graviton5 от AWS представляет собой 192-ядерный 3-нм ЦП на базе Arm с объемом кэш-памяти L3 около 180 МБ. Это позиционирует облачного гиганта как конкурента высокопроизводительным решениям AMD EPYC и Intel Xeon для дата-центров. ЦП включает ядра Neoverse V3 и обеспечивает заявленный прирост производительности на 25%, что является консервативной оценкой, учитывая удвоение количества ядер, значительные микроархитектурные улучшения в Armv9.2 ISA и пятикратное увеличение емкости кэш-памяти. Кроме того, AWS подтверждает снижение задержки между ядрами на 33% благодаря переработанной внутренней компоновке, но не раскрывает, использует ли он CSS от Arm, что позволяет предположить, что Graviton5 может быть уникальной разработкой Annapurna Labs, построенной на ядрах Neoverse V3.
Ключевым архитектурным изменением является замена SLC Graviton4 на большой распределенный L3 для обеспечения лучшего масштабирования когерентности для 192 ядер и предсказуемой задержки. Процессор также получает более быструю подсистему памяти (вероятно, сохраняя 12 каналов с более высокими скоростями DDR5), улучшенную пропускную способность сети и хранилища, а также новый Nitro Isolation Engine, который использует формальную верификацию для гарантии изоляции клиентов и обеспечения нулевого доступа операторов.
В настоящее время Graviton5 используется в новых инстансах EC2 M9g — до 30–35% быстрее для баз данных, веб-сервисов и машинного обучения, — а вычислительно-оптимизированные варианты C9g и памяти-оптимизированные R9g появятся в 2026 году.
Автор – Anton Shilov




