Ненасытные потребности в электропитании и охлаждении графических процессоров (GPU) при обработке данных искусственного интеллекта (ИИ) делают жидкостное охлаждение напрямую к чипу обязательным. Это ключевой фактор смещения фокуса с традиционных центров обработки данных (ЦОД) на фабрики ИИ. Это означает значительные изменения в ландшафте ЦОД, которые могут положить конец локальным (on-premise) центрам обработки данных, поскольку затраты и сложность выходят за рамки возможностей предприятий по их самостоятельному строительству. Таковы основные выводы мероприятия, проведенного на прошлой неделе поставщиком оборудования для ЦОД Schneider Electric, где отраслевые эксперты обсуждали ближайшее будущее сферы ЦОД и посетили строящийся объект TeraWulf мощностью 750 МВт на берегах озера Онтарио. В этом цикле из четырех статей мы рассмотрим быстрые темпы строительства на объекте TeraWulf, как гигантские скачки в мощности GPU диктуют изменения в проектировании ЦОД, их влияние на энергосистему и водопотребление, а также как ржавый пояс уступает место фабрикам ИИ. Огромный рост энергопотребления, обусловленный ИИ, привел к смене парадигмы в проектировании ЦОД. В основе этого лежит требование обеспечивать питанием и охлаждать GPU в объеме, который не требовался в «традиционных» ЦОД с воздушным охлаждением. Отсюда и появление фабрик ИИ. Охлаждение ЦОД долгое время было предсказуемым упражнением в области промышленного отопления, вентиляции и кондиционирования воздуха (HVAC), когда серверы размещались в стойках, а через шасси продувался охлажденный воздух. ИИ переписал этот сценарий. Аппаратное обеспечение, лежащее в основе революции ИИ, особенно GPU, работает с такой тепловой и электрической плотностью, которая делает традиционные методы воздушного охлаждения устаревшими. Кремниевые требования обучения и инференса больших языковых моделей не могут быть удовлетворены увеличением числа или скорости вентиляторов. Вместо этого отрасль сталкивается с переломным моментом, который требует жидкостного охлаждения напрямую к чипу и трансформации доставки электроэнергии на уровне стоек до 800-вольтового постоянного тока (VDC).
Жидкостное охлаждение обязательно
«Жидкостное охлаждение — это не вариант, это необходимость», — заявил Рич Уитмор, генеральный директор Motivair by Schneider Electric, фирмы по управлению тепловыми режимами, недавно приобретенной последней в 2024 году (на фото выше — работники сборочного цеха Motivair). «Это базовое требование для всех этих высоковольтных процессоров. Точка перехода наступила примерно на уровне процессоров [GPU] мощностью 700 Вт, таких как H100. Это была та точка, где мы перешли от попыток обойти законы физики для воздушного охлаждения к реальности. У людей просто больше нет выбора». Физика, лежащая в основе этого сдвига, заключается в том, что когда один процессор превышает порог в 700 Вт, воздух больше не может двигаться достаточно быстро или удерживать достаточно тепловой энергии, чтобы предотвратить троттлинг или расплавление кремния. В то время как исторические корпоративные стойки имели среднюю мощность от 10 кВт до 50 кВт, современные среды обучения ИИ регулярно используют кластеры мощностью 140 кВт и 150 кВт. Системы мощностью 200 кВт готовы к внедрению, а эталонные архитектуры для стоек мегаваттного уровня разрабатываются к концу десятилетия. Такой уровень концентрации энергии преобразует 100% электрической мощности в тепло на площади размером с холодильник. Парадоксально, но этот переход открывает термодинамические преимущества. Традиционные ЦОД требуют энергоемкого охлаждения для подачи сильно охлажденного воздуха. Системы жидкостного охлаждения работают с гораздо более высокими температурами жидкости и позволяют операторам использовать высокотемпературные чиллеры или жидкостно-воздушные сухие охладители. «ЦОД с воздушным охлаждением похожи на старые двигатели Volkswagen, где тепло от нагрузки отводится непосредственно в пространство», — сказал Туан Хоанг, руководитель отдела технологий охлаждения и разработки продуктов в Schneider Electric. «Жидкостное охлаждение похоже на современные автомобили. Это радиатор, который отводит тепло от двигателя. При переходе на эти замкнутые радиаторы для охлаждения фабрики ИИ фактически не требуется потребление воды».
800V DC — новый стандарт
В то время как тепловые ограничения заставляют гидродинамику проникать в «белое пространство» ЦОД — зону генерации дохода, где расположено ИТ-оборудование, — ток, необходимый для питания серверных конфигураций мощностью от 200 кВт до 400 кВт, перегрузит существующие низковольтные распределительные системы. До сих пор облачные объекты полагались на стандарты Open Compute Project (OCP), которые подают переменный ток (AC) на стойку, а внутренние блоки питания преобразуют его в 48 В или 54 В постоянного тока для питания отдельных серверов. Но по мере того, как плотность стоек превышает 200 кВт, ситуация становится механически и структурно невозможной. «Когда вы пытаетесь использовать эту архитектуру, у вас заканчивается запас», — сказал Стивен Карлини, главный защитник ИИ и ЦОД в Schneider Electric. «Это действительно механическая и электрическая проблема. В настоящее время к этим стойкам высокой плотности подходят восемь кабелей питания. По мере приближения к мегавату вам потребуется 32 еще более крупных кабеля, что непрактично». Чтобы обойти это узкое место, проектирование ЦОД решительно смещается в сторону подачи питания 800VDC. Больше вольт означает меньше ампер, что означает меньшие кабели. Обновив распределительную архитектуру до высоковольтного постоянного тока, операторы ЦОД могут уменьшить толщину, вес и сложность медных вводов, входящих в шкаф. Эта электрическая трансформация требует новых конструкций для подачи питания, которые могут быть реализованы с помощью так называемой «архитектуры сайдкар» (sidecar architecture), предназначенной для гибридных сред и модернизации существующих объектов, и выводит инфраструктуру преобразования мощности из основного ИТ-шкафа, размещая ее рядом с вычислительным оборудованием, или с помощью централизованного распределения, ориентированного на новые объекты, где преобразование AC-DC происходит выше по течению на уровне объекта, распределительного отсека или конца ряда.
Отложенные последствия изменений на уровне кремния
Реинжиниринг ЦОД до уровня кремния коренным образом меняет способы проектирования и обслуживания инфраструктуры. Когда вычислительные кластеры масштабируются с текущей скоростью, незначительные электрические аномалии или тепловые падения влекут за собой катастрофические коммерческие последствия. «ЦОД фундаментально меняются», — сказал Маниш Кумар, исполнительный вице-президент по защищенному питанию и ЦОД в Schneider Electric. «Мы считаем, что ЦОД становятся фабриками ИИ огромного масштаба и сложности. Вам необходимо переосмыслить, как вы проектируете, строите или выводите ЦОД на рынок, и рассматривать ЦОД целостно на протяжении всего жизненного цикла». Эта промышленная сложность начинается с моделирования цифровых двойников еще до начала физического развертывания. Поскольку разработчики ИИ сталкиваются с крупными финансовыми штрафами за каждый день простоя GPU в ожидании питания, предварительное моделирование тепловых нагрузок и электрической селективности снижает риски капитальных затрат и сокращает сроки развертывания. Тем временем переход на структуру 800VDC создает проблемы с защитой системы. В отличие от систем переменного тока, высоковольтные цепи постоянного тока не имеют нулевых точек, в которых легче разорвать цепь. Это требует разработки специализированных твердотельных автоматических выключателей, чтобы в случае единичного сбоя на уровне платы срабатывал только этот конкретный выключатель, а не отключался весь многомиллионный тренировочный кластер. ЦОД находятся на распутье. Операторы и корпоративная инфраструктура стоят перед стратегической развилкой: отказаться от устаревшей воздушной и низковольтной подачи электроэнергии или потенциально столкнуться с устареванием, поскольку физические реалии эпохи ИИ оставляют существующую инфраструктуру позади.
Означает ли охлаждение ИИ напрямую к чипу конец локальным ЦОД?
ИТ-директора (CIO) существовали в комфортном равновесии, при котором корпоративная модель данных развивалась в гибридную форму. В этой модели некритичные, эластичные рабочие нагрузки мигрировали в публичное облако, в то время как конфиденциальные основные бизнес-системы, проприетарные наборы данных и предсказуемые вычислительные нагрузки оставались в корпоративных стенах в традиционных помещениях с воздушным охлаждением. ИИ потенциально разрушает эту модель. С переходом от стандартных вычислений на центральных процессорах (CPU) к ускоренным кластерам GPU физические требования современного оборудования ИИ несовместимы с устаревшими локальными конструкциями. Поскольку кремний нового поколения требует обязательного жидкостного охлаждения напрямую к чипу и беспрецедентной плотности мощности, не является ли это концом локального корпоративного ЦОД?
Жидкостное охлаждение нежизнеспособно для большинства?
Как мы видели, корень инфраструктурного переломного момента кроется в тепловой интенсивности оборудования ИИ. Для некоторых в отрасли сложность и капитальные затраты, необходимые для развертывания систем жидкостного охлаждения, делают локальный ИИ нежизнеспособным для подавляющего большинства предприятий. В прошлом предприятие могло построить высококачественное здание ЦОД, установить электрическую и охлаждающую инфраструктуру и надежно выполнять три, четыре или даже пять последовательных обновлений ИТ-оборудования в течение 15 лет без изменения базового объекта. Оборудование ИИ сломало эту модель. Ускорение разработки чипов означает, что каждое последующее поколение процессоров ИИ приносит новые физические размеры, профили мощности и требования к потоку жидкости, которые фундаментально несовместимы с инфраструктурой, построенной всего годом ранее. «В старые времена ЦОД вы строили здание, объект, системы питания и охлаждения, и могли выполнить три, четыре и пять обновлений ИТ», — сказал Крис Бёрнетт, менеджер по работе с клиентами в Cloudflare. «[С] сегодняшним ЦОД… очень немногие будут строить вдвое большую мощность и охлаждение для следующего поколения. Вы строите для сегодняшнего дня; это чрезвычайно сложно». Для корпоративного ИТ-директора коммерческие последствия таковы: строительство локального ЦОД, способного обрабатывать стойки мощностью 200 кВт, требует миллионов фунтов стерлингов специализированных первоначальных капитальных затрат. Если эта индивидуальная проектная конструкция устареет за один ИТ-цикл, потому что следующая итерация кремния потребует совершенно иной гидродинамики или более высоких напряжений, финансовая отдача от инвестиций испаряется. Следовательно, аргумент в пользу аутсорсинга крупным публичным гиперскейлерам или специализированным многоарендным колокейшн-провайдерам становится убедительным.
Или демократичное развертывание для всех?
Другие полагают, что объявлять смерть корпоративного ЦОД преждевременно. С этой точки зрения, долгосрочное будущее корпоративного ИИ не будет состоять исключительно из монолитного обучения фундаментальных моделей — которое, несомненно, принадлежит специализированным гипермасштабным средам. Вместо этого реальная коммерческая ценность для среднего предприятия заключается в тонкой настройке меньших, высокозащищенных, предметно-ориентированных моделей на проприетарных корпоративных данных. «Будут ли предприятия внедрять прямое жидкостное охлаждение, или оно останется вне их досягаемости? Я думаю, что будут», — сказал Карлини из Schneider. «Они определенно перейдут на жидкостное охлаждение напрямую к чипу». Он отметил, что по мере созревания технологий жидкостного охлаждения напрямую к чипу рынок пройдет процесс промышленной стандартизации, при котором поставщики инфраструктуры будут поставлять модульные, автономные «подключаемые» корпуса с жидкостным охлаждением, разработанные специально для размещения в существующих корпоративных площадях. Карлини подчеркнул, что как только первоначальный механический барьер преодолен, присущие жидкостным системам термодинамические преимущества работают в пользу предприятия. «Благодаря эффективности жидкостного охлаждения и температурам, при которых вы можете работать, потребление воды намного меньше», — сказал он. Работая при значительно более высоких температурах жидкости, эти системы устраняют необходимость в массивных, сложных внешних холодильных установках, что потенциально делает локальные высокоплотные вычисления более эффективными с точки зрения эксплуатации, чем устаревшие воздушные системы.
Гибридный подход, вероятно, является ключом
Тем временем существует также возможность гибридного подхода, структурированного вокруг фаз жизненного цикла ИИ. Для ресурсоемкой фазы обучения — когда тысячи GPU должны быть тесно сгруппированы вместе для обработки петабайтов данных в течение недель или месяцев — корпоративный ЦОД однозначно нежизнеспособен. Эта работа будет передана на аутсорсинг специализированным гипермасштабным или колокейшн-средам, которые обладают нативной распределенной системой питания 800VDC и контурами жидкостного охлаждения высокой емкости. Но после обучения модели фокус эксплуатации полностью смещается на инференс, который требует значительно меньшей вычислительной плотности на запрос и должен располагаться физически близко к операционным хранилищам данных компании для минимизации сетевой задержки и соблюдения законодательства о защите данных. Здесь могут найти свое место локальные службы жидкостного охлаждения, описанные Карлини. В этом сценарии корпоративные ЦОД будут модернизированы для поддержки компактных, высокоэффективных зон инференса с жидкостным охлаждением.
ИТ-директорам следует провести аудит своих требований
Появление жидкостного охлаждения напрямую к чипу разрушило традиционный сценарий работы ЦОД. Устаревшие корпоративные серверные не могут адаптироваться к физике современных ускоренных кремниевых компонентов. ИТ-директора, которые пытаются заставить рабочие нагрузки ИИ работать в традиционных конфигурациях с воздушным охлаждением, потенциально сталкиваются с тепловым троттлингом, потерей энергии и растущими расходами. Но также и те, кто пытается построить локальные реплики гипермасштабных ЦОД, рискуют заблокировать капитальные вложения в инфраструктуру, которая может устареть к следующему поколению чипов. Путь вперед требует строгого, основанного на приложениях подхода к инфраструктуре. ИТ-директорам следует проводить аудит своих конвейеров приложений ИИ отдельно от потребностей в обучении высокой плотности и локализованного инференса. Гибридная модель может использовать масштаб специализированных колокейшн-провайдеров для тяжелой работы, одновременно подготавливая свои внутренние команды к внедрению стандартизированных систем с замкнутым контуром жидкостного охлаждения для безопасного инференса.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Antony Adshead




