В феврале 2026 года в одном из американских облачных регионов Microsoft произошел «перерыв в электроснабжении».
Согласно Отчету об инциденте после его устранения, опубликованному на прошлой неделе, проблемы с питанием затронули регион West US, вызвав перебои в доступности услуг в период с 07:58 UTC 7 февраля до 04:24 UTC 8 февраля.
В отчете указано, что из-за сбоя питания некоторые клиенты столкнулись с «периодической недоступностью сервисов, тайм-аутами и/или более высокой, чем обычно, задержкой в работе служб».
Причиной стал «перерыв в электроснабжении, затронувший один из дата-центров в регионе, после чего это проявилось в потере доступности инфраструктуры и сбоях в работе множества зависимых рабочих нагрузок в регионе».
Microsoft сообщила, что по мере стабилизации восстановление «происходило поэтапно», хотя часть инфраструктуры хранения данных и вычислений не была восстановлена немедленно. По словам Microsoft, это «замедлило восстановление зависимых компонентов и способствовало сохранению симптомов, таких как задержка телеметрии и восстановления ресурсов».
Проблемы с питанием были связаны с электрическим сбоем в местном трансформаторе, что, по данным Microsoft, привело к потере внешнего электроснабжения дата-центра, несмотря на то, что внешние сети продолжали функционировать.
«Хотя генераторы запустились, как и было запланировано, каскадный сбой в системе управления помешал автоматическому переключению нагрузки с внешнего питания на питание от генераторов. В результате аккумуляторы источников бесперебойного питания (ИБП) несли нагрузку в течение нескольких минут — до полного разряда, что привело к воздействию на клиентов из-за этой потери питания уже в 07:58 UTC».
Microsoft перешла на использование локальных генераторов, восстановив подачу питания примерно на 90 процентов стоек ИТ к 09:31 UTC, однако для некоторых подмножеств оборудования потребовалась «дополнительная отладка системы управления электропитанием, прежде чем питание могло быть восстановлено».
К 11:29 UTC дата-центр полностью перешел на работу от генераторов.
Потеря питания затронула шесть блоков масштабирования хранилищ (storage scale units) в дата-центре, четыре из которых были быстро восстановлены, но два других столкнулись с «продолжительным восстановлением».
«Из-за зависимости многих вычислительных и платформенных сервисов от этих блоков масштабирования хранилищ произошло замедление общего восстановления услуг».
Microsoft смогла вернуться к внешнему электроснабжению 9 февраля в 03:42 UTC.
У Microsoft есть три региона West US: West US расположен в Калифорнии, а West US 2 и 3 — в Вашингтоне и Финиксе соответственно. Только West US 2 и 3 поддерживают «зоны доступности», что означает наличие нескольких дата-центров в регионе, на которые можно переключиться во время сбоев.
Сбой произошел всего через несколько недель после того, как Oracle столкнулась с проблемами в дата-центре после того, как зимний шторм вызвал отключение электроэнергии. Данный дата-центр был одной из основных площадок TikTok, хотя точное местоположение не уточнялось. Зимний шторм пронесся по США в конце января, затронув около 20 штатов, по данным NOAA, по мере продвижения суровой погоды на восток.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Georgia Butler




