Бывший инженер Microsoft: проблемы Azure вызваны массовым оттоком талантов

Azure Microsoft ии Github облако персонал theregister.com

Проблемы облачного сервиса Azure отражают кризис, усугубленный ИИ: недоинвестирование в персонал и поспешный запуск привели к нестабильности, которую усугубляет ажиотаж вокруг генеративного кода. — theregister.com

В 2024 году федеральные оценщики кибербезопасности, по сообщениям, назвали Microsoft 365 Government Community Cloud High (GCC High) мусором, хотя и использовали более красочный термин. Чтобы понять почему, полезно рассмотреть историю базовой инфраструктуры Azure.

Аксель Риччин, проработавший год инженером в Azure Core Compute, а до этого восемь лет инженером по ядру Windows, теперь написал менее пренебрежительную, но более обличительную историю своего опыта работы с облачным сервисом Microsoft.

В серии из шести эссе (на данный момент) он рассказывает, как Microsoft поспешно вывела Azure на рынок в 2008 году, чтобы конкурировать с Amazon Web Services, упустив возможности для обеспечения стабильности и не сумев поддержать персонал.

“Azure никогда не работал так гладко или независимо, как обещали”, — писал Риччин. “То, что Microsoft представляла миру и своим самым требовательным клиентам, было сложной системой, постоянно находящейся на жизнеобеспечении.

“Эта фундаментальная хрупкость, коренящаяся в поспешных решениях и принятии желаемого за действительное относительно того, как быстро платформа сможет расти и стабилизироваться, приводила к небольшим, но постоянным сбоям. Со временем эти сбои накапливались”.

Риччин утверждает, что поспешный запуск Azure, “исход талантов после запуска”, отсутствие дисциплины в области качества программного обеспечения и тестирования, отсутствие архитектурного видения и постоянно плохое исполнение заставили облачный сервис постоянно бороться с последствиями.

Эти проблемы лишь изредка видны со стороны — например, в репортаже ProPublica, подробно описывающем недовольство правительства услугами Azure, и в сделке OpenAI на 11,9 миллиарда долларов с CoreWeave 10 марта 2025 года, на которую Риччин указывает как на вотум недоверия Azure.

“Можно обоснованно предположить, что Microsoft испытывала трудности с выполнением требовательных запросов OpenAI в срок и в нужном масштабе”, — писал он, указывая на увольнение около 15 000 человек, проведенное Microsoft в период с мая по июль 2025 года. 

Риччин рассказывает о множестве проблем в своей истории Azure, но считает, что многих из них можно было бы избежать, сосредоточившись на людях, а не на их сокращении.

В электронном письме изданию The Register он заявил, что руководителям Microsoft следует “сосредоточиться на возвращении старших технических руководителей для улучшения обучения разработчиков на всех уровнях. Инвестиции в людей посредством наставничества и коучинга со стороны долгосрочных инженеров-программистов Microsoft окажут самое широкое долгосрочное влияние. Я думаю, что их самой значительной проблемой было размывание знаний, вызванное высокой текучестью кадров”.

Недавний энтузиазм по поводу ИИ убедил многие компании в том, что они могут обойтись меньшим количеством людей, включая Microsoft. Однако внедрение ИИ лишь подчеркнуло последствия запуска кода без достаточного количества людей, следящих за ним.

Мартин Алдерсон, соучредитель catchmetrics.io, пишет о последствиях ажиотажа вокруг ИИ и предупреждает о “предстоящем дефиците вычислительных мощностей“.

Алдерсон сказал The Register: “Очевидно, что ИИ не только поглощает огромные объемы вычислений для обучения и инференса, но и существуют серьезные вторичные эффекты. Поскольку агенты по кодированию могут генерировать десятки тысяч строк кода, мы также наблюдаем массовый всплеск спроса на вычисления в рабочих процессах CI/CD для тестирования и развертывания этого кода — который часто сам теперь использует агента по кодированию для проведения проверок качества и безопасности. И этот новый код должен быть где-то развернут — с большим увеличением спроса на серверы приложений и баз данных для его обслуживания”.

Он указал на веб-сайт Claude’s Code, который показывает четырехкратное увеличение коммитов, созданных агентом ИИ Anthropic за последние три месяца. “Я почти уверен, что частные репозитории будут еще больше, учитывая объем “атмосферного” кода, которым люди, вероятно, не хотят делиться с миром по соображениям качества”, — сказал он.

Этот всплеск коммитов и связанный с ним спрос на вычислительную инфраструктуру, по-видимому, перегружает Microsoft GitHub, который, по неофициальным данным, видел, как его время безотказной работы опускалось ниже 90 процентов. Когда GitHub устранял эти проблемы в прошлом месяце, он ссылался на переход на Azure как на возможное решение.

“На сегодняшний день 12,5 процента всего трафика GitHub обслуживается из нашего региона Azure Central US, и мы планируем обслуживать 50 процентов всего трафика GitHub к июлю”, — сказал технический директор GitHub Влад Федоров в посте в блоге. “В долгосрочной перспективе это позволит упростить нашу инфраструктурную архитектуру и повысить глобальную отказоустойчивость за счет использования управляемых сервисов”.

Среди тех, кто обсуждает подобные вопросы в сети, некоторые предполагают (без доказательств), что сам Azure может способствовать нестабильности.

Риччин сказал, что не уверен, можно ли связать проблемы GitHub с Azure.

“Я не знаю”, — сказал он. “Из публичных заявлений известно, что серверы GitHub перемещались или были перемещены на Azure, так что это возможно, но неясно, завершен ли этот переезд на данный момент”.

Microsoft не сразу ответила на запрос о комментарии.

Риччин сказал, что неясно, чем закончится спешка в сторону ИИ. Но он продолжает видеть ценность в разработчиках-людях.

“Большие языковые модели (LLM) очень хороши в воспроизведении шаблонов, поэтому они помогают в основном при воссоздании вариаций программного обеспечения, которое многократно встречалось в обучающем наборе, и где значительные части кода могут быть выведены на основе этого”, — сказал он. “Они также помогают находить ошибки, не путем “понимания”, а путем наблюдения за отклонениями от их вероятностных ожиданий, опять же основанных на изученных шаблонах. Много сенсационности. У меня нет большого оптимизма по поводу так называемой замены инженеров-программистов ИИ”.

Действительно, похоже, что недостаточное инвестирование технологической индустрии в людей — ее готовность от них избавляться — усугубляется чрезмерными инвестициями в ИИ. Поскольку все больше и больше кода создается, фиксируется и запускается в облачных сервисах, нам нужно все больше и больше людей, проверяющих работу и поддерживающих инфраструктуру в рабочем состоянии. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: