Десять ошибок при обновлении брандмауэра на локальной инфраструктуре австралийского телекома способствовали двум смертям

optus,nokia,экстренные службы,сбой сети,межсетевой экран,triple zero

Отчет о сбое в сети Optus, который привел к гибели двух человек, выявил серьезные ошибки при обновлении межсетевого экрана. Неверные инструкции, игнорирование процедур и недостаточный контроль со стороны как Optus, так и подрядчика Nokia привели к невозможности дозвониться по номеру 000.

Техники, проводившие модернизацию межсетевого экрана, допустили по меньшей мере десять ошибок, которые привели к гибели двух человек, согласно отчету об инциденте в сентябре, когда австралийская телекоммуникационная компания Optus не смогла направить звонки в экстренные службы.

Как сообщал The Register по этому поводу, австралийский эквивалент американского 911 и британских 999 и 112 — это 000 (Triple Zero), и по закону все телекоммуникационные компании обязаны перенаправлять экстренные вызовы на этот номер. В течение 14 часов 18 сентября Optus не могла перенаправить некоторые звонки клиентов на номер 000 и не подозревала о каких-либо проблемах в своей сети. Компания в итоге узнала о ситуации от клиентов, которые жаловались в её колл-центр.

Во время сбоя связи с номером 000 455 звонков в экстренные службы не были доставлены, и двое из этих звонивших скончались.

В четверг Optus опубликовала независимый отчет по данному вопросу, написанный доктором Керри Шотт, австралийским руководителем, занимавшим должности во многих крупнейших компаниях.

Отчет показал, что Optus планировала 18 обновлений межсетевого экрана и успешно выполнила 15 из них. Однако при 16-м обновлении Optus выдала неверные инструкции своему подрядчику Nokia.

«Эти ошибки, по-видимому, вызваны недостаточным вниманием к вопросу со стороны инженеров сети межсетевых экранов», — говорится в отчете, где также отмечается, что «некоторые сетевые инженеры не посетили эти проектные совещания для оценки влияния запланированных работ».

Позднее персоналу потребовались изменения, которые подразумевали изоляцию устройств и блокировку шлюза, что означало бы невозможность перенаправления трафика. Optus не применяла эту процедуру при шести предыдущих обновлениях межсетевого экрана. Тем временем Nokia решила использовать процедуру от 2022 года, которую она не применяла при прошлых обновлениях и которая оказалась неподходящей для данной задачи.

Приступая к работе, Nokia ошибочно классифицировала задачу как не оказывающую влияния на сетевой трафик.

К тому моменту Optus уже классифицировала задачу как срочную. Это означало, что инженерная проверка, которая обычно проводится, не состоялась.

Затем Nokia приступила к обновлению, используя неверную процедуру. Вскоре после этого она обнаружила признаки проблем в сети. Nokia зафиксировала эти проблемы, но не стала их расследовать. Optus также была осведомлена о предупреждениях, но решила не углубляться в этот вопрос.

В 2:40 утра команды провели проверку после внедрения. Отчет показал, что частота отказов вызовов увеличивалась, а не снижалась, как ожидалось. «Аномалия не была выявлена», — говорится в отчете.

Последней ошибкой стало то, что Optus использовала общенациональные агрегированные данные для оценки колебаний объемов вызовов в своей сети. «Эти данные были недостаточно детализированы, чтобы позволить выявить возникающую проблему», — написала Шотт, поэтому локальные проблемы, вызванные одним неудачным обновлением, не были обнаружены.

Шотт резюмировала инцидент следующим образом:

В ходе этого инцидента стали очевидны три проблемы.

Первая — это очень плохое управление и производительность в сетях [Optus] и их подрядчика Nokia. Процессы не соблюдались, выбирались неверные процедуры. Проверки были недостаточными, контроль игнорировался, а оповещениям уделялось недостаточно внимания.

Наблюдалось нежелание обращаться за более опытным советом внутри отдела сетей, а также сосредоточенность на скорости и выполнении задачи, а не на тщательности ее выполнения.

Обзор также показал, что колл-центр Optus не осознавал, что может быть «первым каналом оповещения о трудностях с Triple Zero».

В документе также отмечается, что австралийские телекоммуникационные компании пытаются направлять звонки на номер 000 во время сбоев, но это непросто и усложняется тем, что разные смартфоны ведут себя по-разному. Optus предупреждает клиентов, если их устройства не были протестированы на возможность подключения к номеру 000, и ведет список известных неисправных устройств. Однако отчет отмечает, что процесс Optus «не охватывает так называемые «серые» устройства, купленные онлайн или за границей, которые могут не соответствовать стандартам».

Все австралийские телекоммуникационные компании в настоящее время пытаются понять потенциальные проблемы.

Источник, осведомленный об операциях по тестированию телефонов у другого австралийского оператора, недавно сообщил нам, что его команда оценивает производительность каждого доступного телефона.

В отчете содержится призыв к Optus прекратить текущую практику работы в разрозненных отделах и улучшить свои возможности реагирования на инциденты и кризисные ситуации.

Но самые резкие слова зарезервированы для технических команд, участвовавших в неудачном обновлении.

«То, что стандартное обновление межсетевого экрана пошло так плохо, непростительно», — говорится в документе. «Исполнение было плохим и, казалось, больше сосредоточено на выполнении, чем на правильности. Надзор как за сетевым персоналом, так и за Nokia должен быть более дисциплинированным, чтобы добиться правильного результата». ®