На своей ежегодной конференции Cloud Next в Лас-Вегасе в среду компания Google представила два новых собственных ускорителя искусственного интеллекта: один предназначен для ускорения обучения, а другой — для снижения затрат на обслуживание моделей.
«Фабрика шоколада» заявляет, что ее тензорные процессоры восьмого поколения работают до 2,8 раза быстрее при обучении и обеспечивают на 80 процентов более высокую производительность на доллар при выводе больших языковых моделей (LLM) по сравнению с TPU Ironwood прошлого года.
Для достижения этой цели Google пошла по пути двойной специализации в разработке ускорителей, создав TPU 8t для обучения и TPU 8i для вывода. Хотя эти чипы построены на схожих основах, каждый из них специально нацелен на устранение узких мест в соответствующей рабочей нагрузке.
Google не первая, кто пошел по этому пути. На ранних этапах разработки чипов ИИ компания Amazon Web Services признала необходимость в ускорителях, оптимизированных для вывода и обучения.
Nvidia также экспериментировала с подобной специализацией, хотя и не в такой степени. Поколение Blackwell Ultra от этого производителя графических процессоров было оптимизировано специально для вывода ИИ, пожертвовав мощностью высокой точности ради 50-процентного скачка в памяти и вычислениях FP4 по сравнению с его собратом Blackwell.
В дополнение к двойной специализации Google отказывается от процессоров x86 в пользу своих собственных ЦП Axion на базе Arm для хостов TPU. Amazon сделала нечто подобное с Graviton и Trainium 3 ранее в этом году.
Подход Google к специализации идет гораздо глубже, чем сами TPU. Гигант в области поиска и рекламы разработал новые кластеры с отдельными сетевыми топологиями для минимизации потерь при масштабировании как при выводе, так и при обучении.
Современные рабочие нагрузки ИИ редко выполняются на одном ускорителе, поэтому возможность эффективного масштабирования этих нагрузок на несколько чипов часто важнее, чем скорость каждого из них.
TPU 8t настроен на обучение
Как и ее предыдущие ускорители, TPU 8t от Google предназначен для обучения в огромных масштабах. Возможно, компания не привлекает такого же ажиотажа, как OpenAI или Anthropic, но Google остается плодовитым разработчиком моделей.
Под капотом Google доработала сочетание векторных, матричных умножений и ускорителей SparseCore для встраивания, представленных в чипах Ironwood, чтобы максимизировать эффективную пропускную способность с плавающей запятой.
Каждый ускоритель оснащен 216 ГБ высокоскоростной памяти (HBM) с пропускной способностью 6,5 ТБ/с, 128 МБ бортовой SRAM, до 12,6 петафлопс вычислений с 4-битной плавающей запятой и пропускной способностью от чипа к чипу до 19,2 Тбит/с.
По сравнению с графическими процессорами Rubin от Nvidia, которые Google также объявила о планах развернуть в своей облачной инфраструктуре, новый TPU может показаться несколько скромным.
Rubin может похвастаться производительностью обучения FP4 до 35 петафлопс и 288 ГБ HBM4 с пропускной способностью 22 ТБ/с. Таким образом, по отдельности графические процессоры Nvidia быстрее, но это не имеет большого значения: при обучении новой передовой модели вы используете не один графический процессор, а тысячи. И когда дело доходит до масштаба, у Google есть преимущество.
Новейшие графические процессоры Nvidia поддерживают до 576 ускорителей в одной доменной зоне NVLink, прежде чем потребуется масштабирование через Ethernet или InfiniBand.
TPU 8t, с другой стороны, использует оптически-коммутируемые коммутаторы — оптомеханическую технологию коммутации, которая больше похожа на телефонную станцию, чем на коммутатор пакетов, — для подключения до 9600 ускорителей в одном унифицированном поде.
Несколько подов затем соединяются с помощью новой сети Virgo для поддержки еще больших вычислительных доменов.
Вместо того чтобы просто строить более крупную сетку «от чипа к чипу», Google, по-видимому, использует коммутаторы пакетов с чрезвычайно высокой плотностью портов.
Насколько нам известно, они организованы в относительно плоскую двухуровневую топологию «все ко всем», способную соединять до 134 000 TPU на дата-центр и до миллиона TPU при соединении нескольких площадок. Или так утверждает Google.
Наряду с новой сетевой структурой Google также разработала систему хранения данных Managed Lustre, способную подавать 10 ТБ/с агрегированных данных непосредственно в память своих ускорителей.
По словам Google, эти технологии в сочетании с улучшенными возможностями надежности, доступности и ремонтопригодности (RAS) позволят ее оптимизированным для обучения TPU работать с «полезной пропускной способностью» (goodput) в 97 процентов.
В данном случае goodput означает время, которое TPU фактически тратят на обучение.
«Любой сбой оборудования, остановка сети или перезапуск контрольной точки — это время, когда кластер не обучается, а при масштабах передового обучения каждый процентный пункт может обернуться днями активного времени обучения», — пояснила компания в своем блоге.
TPU 8i: Инфлексия вывода
Вывод — это авторегрессионная рабочая нагрузка, что означает, что для каждого сгенерированного токена необходимо передать через память все активные веса модели. Хотя вычисления по-прежнему важны, основным узким местом, как правило, является пропускная способность памяти.
Для своего TPU 8i, ориентированного на вывод, Google жертвует некоторыми FLOPS ради значительно большего кэша SRAM и более быстрого пула памяти с большей емкостью.
По бумажным характеристикам чип примерно сопоставим с ускорителями Blackwell от Nvidia. TPU 8i имеет 10,1 петафлопс вычислений FP4, питаемых 384 МБ бортовой SRAM и 288 ГБ HBM с пропускной способностью 8,6 ТБ/с. Пропускная способность межсоединений, тем временем, не изменилась по сравнению с его собратом, ориентированным на обучение.
По словам Google, весь этот SRAM помогает TPU 8i удерживать больше кэша «ключ-значение» (кратковременной памяти модели) в чипе и сокращать время, в течение которого ядра простаивают в ожидании данных.
TPU 8i также отказывается от SparseCores от Google в пользу движка коллективного ускорения (CAE). Как следует из названия, блок ускорителя ускоряет вывод, снимая нагрузку с коллективных коммуникаций, таких как all-reduce или all-gather, сокращая простои синхронизации, которые в противном случае привели бы к простою тензорных ядер чипа.
Фактически, акцент Google в TPU 8i, по-видимому, направлен на устранение как можно большего количества задержек во всем стеке вывода.
Коллективные коммуникации стали довольно проблематичными по мере того, как архитектуры «смесь экспертов» (MoE) становятся все более распространенными. Эти модели состоят из нескольких субмоделей, называемых экспертами, подмножество которых активируется для каждого сгенерированного токена.
Преимущество заключается в том, что модели могут расти, не требуя обязательно дополнительной пропускной способности памяти для поддержания того же уровня производительности. Недостаток в том, что коммуникация между чипами становится менее предсказуемой, поскольку генерация одного токена может использовать другой набор экспертов, чем следующий, и эти эксперты могут находиться на разных ускорителях.
Google заявляет, что ее CAE снижает задержки коллективных коммуникаций в пять раз, что приводит к улучшению экономической эффективности, позволяя размещать больше пользователей на одном и том же оборудовании.
Наряду со своими чипами, оптимизированными для вывода, Google также разработала топологию под названием Boardfly. Сетевая схема несколько напоминает топологии Dragonfly, обычно используемые в кластерах высокопроизводительных вычислений (HPC), и позволяет соединять 1152 чипа (1024 активны в любой момент времени) с использованием оптически-коммутируемых коммутаторов.
Ключевое преимущество Boardfly заключается в том, что он сокращает максимальную задержку между чипами с 16 переходов в 3D-торе до всего семи переходов, дополнительно снижая задержку между чипами при запуске моделей MoE или рассуждений.
Google — не единственная компания, изменившая подход к построению кластеров вывода для лучшей поддержки новых архитектур. В декабре AWS отказалась от 3D-торов для вывода по схожим причинам, но вместо этого выбрала более традиционную коммутируемую пакетную сеть.
Оба ускорителя TPU 8 станут общедоступными позднее в этом году на Google Cloud Platform в виде инстансов или в составе платформы AI Hypercomputer облачного провайдера, которая объединяет всю необходимую сеть, хранилище, вычисления и программное обеспечение для развертывания или обучения LLM в масштабе. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Tobias Mann




