Аферы с сертификацией и другие резонансные инциденты в секторе ЦОД осени 2024 года

13.12.2024 13:12

TelecomBloger.ru

Осень 2024 года не обошлась без резонансных инцидентов в секторе ЦОД. Его субъекты и пользователи услуг дата-центров, включая как корпоративных клиентов, так и обывателей, столкнулись с рядом скандалов и технических сбоев. Эти события демонстрируют уязвимость даже самых современных IT-систем и передовой вспомогательной инфраструктуры ЦОД.

Среди самых громких событий – разоблачение американского колокейшн-провайдера, распространявшего ложные данные о надежности своих ЦОД, авария в дата-центре Google Cloud, приведшая к 12-часовому сбою для клиентов в Европе, и инцидент в гонконгской серверной ферме Mega Two, где пострадал инженер. Эти ситуации наглядно показывают, как ошибки в управлении оборудованием или технические сбои могут нарушить работу бизнеса.

Однако проблемы затрагивают не только корпоративный сектор. Технический сбой в ЦОД British Airways снова вызвал хаос для тысяч пассажиров по всей Европе, а прорыв трубы в серверной НАСА временно парализовал работу систем обработки данных, необходимых для изучения активности Солнца. Эти события служат напоминанием о том, насколько важно тщательно выбирать партнеров в сфере IT и неуклонно следовать стандартам обслуживания.

Колокейшн-провайдер из США распространял ложную информацию о надежности ЦОД

Наличие сертификата соответствия инфраструктуры ЦОД спецификациям Uptime Institute Tier IV считается гарантом надежности и безопасности оборудования. Однако недавний случай в США показал, что документы о соответствии могут оказаться поддельными. Это создает серьезные риски для арендаторов, чьи данные и бизнес-процессы зависят от обещанных колокейшн-провайдером стандартов обслуживания.

В октябре 2024 года главе одной из американских IT-компаний было предъявлено обвинение в мошенничестве из-за предполагаемой подделки данных о безопасности и надежности инфраструктуры дата-центра, что позволило заключить контракты на крупную сумму с Комиссией по ценным бумагам и биржам США (SEC). Обвиняемый – 49-летний Дипак Джайн, проживающий в Потомаке, штат Мэриленд.

Согласно обвинительному заключению, в период с 2012 по 2018 годы компания Джайна, название которой не указано, получила в общей сложности около $10,7 млн от SEC за использование своего дата-центра в Белтсвилле, штат Мэриленд. Обвиняемый утверждал, что дата-центр его компании прошел сертификацию Tier IV. Эта сертификация была необходима для заключения контракта с SEC.

Однако вместо привлечения Uptime Institute Джайн создал фиктивную организацию под названием Uptime Council для сертификации своего дата-центра. Расследование показало, что ЦОД на самом деле не соответствовал требованиям Uptime Institute Tier IV. Неудивительно, что сотрудники SEC столкнулись с рядом проблем после размещения IT-оборудования в дата-центре компании обвиняемого, включая сбои в системах безопасности, охлаждения и энергоснабжения. Согласно судебным документам, сотрудникам SEC не разрешилось осматривать инфраструктуру дата-центра, что могло вызвать подозрения относительно сертификации.

Хотя название компании в судебных документах не указано, на странице Джайна в LinkedIn мужчина фигурирует как основатель фирмы AiNet, занимающейся дата-центрами в Мэриленде. В профиле сказано, что дата-центры компании имеют сертификацию Tier IV. Согласно данным DataCenterMap, в Белтсвилле находятся три дата-центра, управляемых Coloco, Mosaic Data и Verizon. AiNet управляет дата-центром AiNet Coloco #8 в соседнем Лореле, который был построен для Verizon.

Джайну предъявлены обвинения по шести пунктам, связанным с крупным мошенничеством против правительства США, и одному пункту за дачу ложных показаний. В случае признания виновным ему грозит до 10 лет тюрьмы за каждый пункт, касающийся крупного мошенничества, и до 5 лет за ложные показания. Адвокаты обвиняемого отмечают, что Джайн и его компания полностью выполнили условия контракта с SEC, апеллируя к отсутствию доказательств утраты государственных данных или попадания их в руки злоумышленников.

Сбой Google Cloud: 12 часов простоя из-за аварии ЦОД в Германии

В конце октября 2024 года европейские клиенты облачной платформы Google Cloud, охватываемые франкфуртским регионом europe-west3-c, столкнулись с 12-часовым сбоем из-за проблем с энергоснабжением и охлаждением в локальном ЦОД.

Сбой начался 24 октября в 2:30 ночи по местному времени. Устранить первопричину аварии удалось к 15:09. В пресс-службе Google извинились за неудобства и сообщили, что причиной стала неисправность в системах энергоснабжения и охлаждения облачного дата-центра. Это привело к отключению части оборудования, обслуживающего зону europe-west3-c.

Клиенты, работавшие в пострадавшей зоне, утратили доступ к виртуальным машинам и дискам. Завершив восстановление работы в дата-центре, инженеры Google начали готовить полный отчет о происшествии. Франкфуртский облачный регион Google был запущен в 2017 году. В 2021 году поисковый гигант объявил о планах по расширению региона и разработке еще одного региона в Берлине, который был запущен в 2023 году.

Ранее в 2024 году компания также столкнулась с несколькими сбоями в работе облачной инфраструктуры, включая масштабные проблемы в Великобритании и Австралии. В августе 2024 года сервисы Google, включая Search, YouTube, Gmail и Meet, были отключены для части пользователей из-за проблем с Cloud CDN, Cloud Load Balancing и Hybrid Connectivity в регионе Великобритания (europe-west2). В мае компания случайно удалила подписку на Private Cloud австралийского пенсионного фонда UniSuper, что привело к недельному отключению.

Инцидент с системой охлаждения дата-центра в Гонконге привел к госпитализации сотрудника

14 октября 2024 года в дата-центре Mega Two, который находится в Гонконге и принадлежит компании SUNeVision, произошел инцидент с системой охлаждения. В результате аварии инженер получил травму руки.

Во время технического обслуживания в помещении со счетчиками на первом этаже здания произошла вспышка в шкафу с оборудованием. Возможной причиной названо короткое замыкание. Пострадавший при этом техник был госпитализирован с легкими травмами и вскоре выписан. Техническое обслуживание выполнял сторонний подрядчик.

Администрация здания оперативно проинформировала о случившемся органы защиты правопорядка. Полиция получила сообщение о том, что в ЦОД, предположительно, произошел взрыв. В отчете полицейских сказано, что пострадавший при этом техник находился в сознании, когда его доставили в больницу им. Принца Уэльского для обследования, где было подтверждено, что травмы были незначительными. Инцидент был классифицирован как промышленная авария.

В SUNeVision отметили, что инцидент не повлиял на работу дата-центра и качество обслуживания клиентов. После аварии компания оперативно начала расследование на месте, чтобы обеспечить безопасность остальных сотрудников и партнеров, работающих в ЦОД. Колокейшн-провайдер также объявил о планах заменить поврежденное оборудование.

Расследование причин и особенностей аварии продолжается, но уже установлено, что к взрыву привела внезапная проблема с напряжением во время ремонта системы кондиционирования воздуха. Представители SUNeVision выразили сожаление о случившемся с техником и пообещали поддержку пострадавшему сотруднику.

ЦОД Mega Two, запущенный в 2007 году, имеет общую площадь 39 855 кв. м. Ранее в здании присутствовало IT-оборудование ряда крупных арендаторов, включая China Telecom, Rackspace и Vantage. Эксплуатирующая ЦОД компания SUNeVision Holdings Limited является технологическим подразделением Sun Hung Kai Properties и лидером рынка услуг ЦОД Гонконга. Она контролирует 7 дата-центров в регионе, включая Mega-i, Mega Gateway, Mega IDC, Mega Plus и Mega 2.

Сбой в ЦОД British Airways вызвал задержки авиарейсов по всей Европе

Техническая неисправность в IT-инфраструктуре, используемой авиакомпанией British Airways, привела к задержкам рейсов, затронувшим тысячи пассажиров. Причина сбоя пока не установлена. Инцидент случился во второй половине ноября 2024 года.

В официальном пресс-релизе авиакомпании, опубликованном после инцидента, сказано, что рейсы продолжают выполняться, но с задержками. Техники компании работают над устранением проблемы, затронувшей некоторые IT-системы.

Это не первый крупный сбой подобного плана в истории British Airways. В 2023 году 175 рейсов были отменены из-за схожей проблемы. В декабре 2022 года большое количество пассажиров дальнемагистральных рейсов пострадало от другого сбоя. В феврале того же года многие ближнемагистральные рейсы были приостановлены во время длительной аварии. В 2019 году из-за сбоя в работе вычислительной инфраструктуры были отменены перелеты не менее 15 тысяч пассажиров 84 рейсов.

В 2017 году из-за сбоя в IT-системах авиакомпании пострадали более 75 тысяч пассажиров. Расследование показало, что один из ее дата-центров вышел из строя, после чего не удалось перевести нагрузку на резервный ЦОД. В результате British Airways подала в суд на оператора центра обработки данных CBRE, планируя возместить убытки на сумму более £58 млн. Стороны в конечном итоге урегулировали спор во внесудебном порядке, не признав при этом ответственность. Впоследствии компания British Airways вложила £7 млрд в программу модернизации инфраструктуры ЦОД, включая перенос 7 сотен IT-систем в облако.

Прорыв трубы в дата-центре НАСА привел к продолжительному даунтайму

26 ноября 2024 года в серверной, принадлежащей НАСА, произошел прорыв трубы с холодной водой. Инцидент случился в здании Обсерватории солнечной динамики (Solar Dynamics Observatory; SDO) в штате Калифорния (США). В результате произошло “значительное повреждение” водой вычислительных узлов.

Серверы обслуживали 3 критически важные инструмента для исследования активности Солнца: Helioseismic and Magnetic Imager (HMI), Atmospheric Imaging Array (AIA) и Interface Region Imaging Spectrograph (IRIS). IRIS – это зонд, запущенный на околоземную орбиту в июне 2013 года. Инструмент HMI используется для определения колебаний и оценки магнитных полей на поверхности Солнца. AIA — это массив из четырех телескопов, который используется для изучения солнечных вспышек, а также других явлений.

Сбой, как показало предварительное расследование, не привел к потере данных. Авария просто замедлила обработку информации. В НАСА все еще оценивают ущерб и затрудняются прогнозировать сроки возобновления работы серверной. Отмечается, что вода затронула многие системы.