Аварии в дата-центрах, которые было (почти) невозможно предусмотреть

Несмотря на все старания проектировщиков обеспечить дата-центры надежной системой защиты от сбоев и аварийных ситуаций, аварии все же случаются, причем их появлению может предшествовать целая цепочка событий. Это иногда приводит к сбою в самых надежных системах защиты от «неприятностей», и работа ДЦ прекращается


В продолжении — несколько случаев, как давних, так и произошедших совсем недавно, которые показывают, что некоторые ситуации просто невозможно предусмотреть.

Аварии в дата-центрах, которые было (почти) невозможно предусмотреть Дата-центр, Авария, Катастрофа, Происшествие, Длиннопост

Ураган Сэнди: отказ генератора


Когда на всем Западному Побережью США бушевал ураган Сэнди, в этом регионе, практически везде, отключилось электричество (октябрь 2012). Кроме ливня и ураганного ветра, ситуация усугублялась и массами соленой воды, заливающей Манхэттен и многие другие регионы и города.


На 18 этаже высотного здания по 75 Broad Street, Нижний Манхэттен, стояли аварийные генераторы, готовые обеспечить дата-центр Peer 1 электричеством в случае выхода из строя основной системы энергоснабжения. Генераторы начали работать сразу же после того, как соленая вода залила подвалы высотки и ее лобби.


К сожалению, вода вывела из строя еще один критический для всей системы элемент — топливный насос, который подавал горючее наверх. Дело в том, что после 9/11 в Нью-Йорке были введены новые правила хранения топлива в зданиях, хранить дизель, бензин или любое другое топливо на верхних этажах можно было только в ограниченном количестве. Поэтому, как только генераторы на 18-м этаже исчерпали запасы топлива, вся система остановилась, поскольку новое горючее не подавалось.


Вместо того, чтобы остановить систему, команда Peer 1 начала вручную доставлять топливо, поднимая его на 17-й этаж, где размещался бак для топлива. А уже оттуда горючее поднималось на 18-й этаж, к генераторам.


Эта работа продолжалась несколько дней, пока не удалось запустить основную систему энергоснабжения. Стоит отметить, что клиентами Peer 1 были такие компании, как SquareSpace и Fog Creek Software.


Работа дата-центра поддерживалась только благодаря находчивости команды, хотя ручная доставка топлива, конечно, не предусматривалась ни одним из планов.


Все работает, и это отлично

Аварии в дата-центрах, которые было (почти) невозможно предусмотреть Дата-центр, Авария, Катастрофа, Происшествие, Длиннопост

Летающий внедорожник и Rackspace


Еще более необычный случай произошел в 2007 году, 13 ноября. Тогда в дата-центр Rackspace влетел внедорожник. Водитель, страдающий диабетом, потерял управление, потеряв сознание. Внедорожник ускорился (видимо, водитель в бессознательном состоянии надавил на педаль газа), вылетел за пределы дороги, и врезался (будучи в воздухе) в строение, где размещалась энергетическая система дата-центра Rackspace.


Система охлаждения дата-центра перешла на вспомогательную систему энергоснабжения, и работа продолжалась без проблем. Основное оборудование также без проблем перешло на аварийное энергоснабжение. Но потом начались проблемы — как оказалось, массивные охладители не перезапустились, остановившись еще во время первого сбоя электроснабжения. Два охладителя так и не заработали, и работники дата-центра не смогли их ввести в строй в течение в нужное время.


В результате оборудование начало перегреваться, и команда инженеров приняла решение выключить ДЦ, чтобы оборудование не вышло из строя.


Остановить оборудование пришлось на пять часов, в течение которого сайты и сервисы клиентов дата-центра не работали. В результате Rackspace пришлось компенсировать своим клиентам убытки, в размере 3,5 миллионов долларов США.

Аварии в дата-центрах, которые было (почти) невозможно предусмотреть Дата-центр, Авария, Катастрофа, Происшествие, Длиннопост

Проблемы у Samsung


20 апреля 2014 года случилось возгорание в офисном здании в г. Гвачон (Gwacheon), Южная Корея. Пламя быстро распространилось по всему зданию, не обойдя и ДЦ Samsung SDS. Огонь и дым вышли за пределы здания, и были хорошо видны издалека.


Всех сотрудников Samsung, а также сотрудников других компаний, работавших в этом здании, эвакуировали. Пожар не уничтожил ДЦ полностью, но нанес ущерба достаточно, чтобы пользователи гаджетов от Samsung не могли получить доступ к своим данным.


Доступ к данным пользователи получили только после того, как вошел в строй вторичный дата-центр в этом же городе. После этого последовали официальные извинения от руководства компании.

Аварии в дата-центрах, которые было (почти) невозможно предусмотреть Дата-центр, Авария, Катастрофа, Происшествие, Длиннопост

Возгорание кабельного канала


Еще одно короткое замыкание с последующим возгоранием обшивки кабельного канала в Fisher Plaza, Сиэттл, привело к неработоспособности ряда сервисов, включая Authorize.net, Bing Travel, Geocaching.com, AdHost и ряда прочих ресурсов. Локализовать проблему удалось только к утру (все случилось 3 июля 2009 года).


При этом ряд сервисов возобновил работу в 10 утра, прочие сервисы не работали еще несколько часов. Компания Fisher Communications, которой принадлежал пострадавший дата-центр, потратила более $10 млн на ремонт и замену оборудования.

Аварии в дата-центрах, которые было (почти) невозможно предусмотреть Дата-центр, Авария, Катастрофа, Происшествие, Длиннопост

Пламя в Айове


Днем 18 февраля 2014 года дата-центр, обслуживающий работу государственных сервисов и служб, работал вполне нормально. В этот день штат должен был осуществить ряд платежей государственным сотрудникам, в размере $162 млн. По иронии судьбы, именно в этот день в дата-центре случилось короткое замыкание.


При этом команда инженеров несколько дней подряд готовила объект к встрече с совсем другой неприятностью — последствиям снежной бури, предсказанной на вечер 18 февраля.


После того, как случилось короткое замыкание, дым распространился по всему зданию, и сотрудников эвакуировали. Сработала противопожарная система FM-200, в результате чего пожар был локализован. При этом система, ответственная за контроль поступления энергии в ДЦ, перегрелась и расплавилась.


Сотрудники смогли быстро наладить поставки энергии по другому каналу, и энергоснабжение возобновили через несколько часов. Тем не менее, без доступа к инфраструктуре ДЦ возобновить его работу было невозможно. А пожарные и полиция не пускали саппорт в здание, поскольку внутри было много дыма. Только через 3,5 часа сотрудники смогли зайти в ДЦ. Все это время ничего не работало, платежи не ушли.


Восстановить работу ДЦ удалось только в 9 вечера (сам пожар начался в 3 вечера), и после этого можно было начать проводить платежи.

Аварии в дата-центрах, которые было (почти) невозможно предусмотреть Дата-центр, Авария, Катастрофа, Происшествие, Длиннопост

Amazon и сварка


9 января 2015 года в большом здании, где строился дата-центр Amazon, случился пожар. Проблема возникла из-за сварщика, который случайно поджег стройматериалы, находящиеся рядом. Небольшое пламя быстро превратилось в огенный шторм третьей категории, который пришлось долго тушить. Султан дыма был виден на много километров от дата-центра. Общий ущерб, причиненный компании, составил $100000.


Правда, клиенты Amazon не пострадали, поскольку объект еще не был введен в эксплуатацию.

Аварии в дата-центрах, которые было (почти) невозможно предусмотреть Дата-центр, Авария, Катастрофа, Происшествие, Длиннопост

Вместо вывода


В большинстве случаев аварийная ситуация возникла очень неожиданно, выходя за рамки действий, предусмотренные планом и инструкциями. Тем не менее, в некоторых случаях с проблемой удалось справиться, но в других — компании, как владельцы ДЦ, так и клиенты, терпели существенные убытки.


А какие у вас возникали проблемы и аварийные ситуации? Как вы с ними справлялись?


Источник: https://habrahabr.ru/company/kingservers/blog/260357/

Автор поста оценил этот комментарий
Случилась эта история в прошлом месяце. Придя на работу встретил уборщицу, которая пожаловалась, что вилка на пылесосе искрит. Спросил у прошлой смены, они не в курсе дела. Спустя 30 минут в здании блокируются электро замки, перестают работать все телевизоры и интернет. Начали бегать и искать причину, вспоминаем про уборщицу и идём в электро щитувую, там нет напряжении на вводе, бежим в грщ и находим выбитый автомат питания розеток 4 этажа.
Как оказалось искрила не вилка а розетка, в следствии чего выбило автомат в грщ, что обесточило розетки 4 этажа в которые был подключен сервер через ибп. Ибп первый час героически питал сервер, а затем умер смертью храбрых прихватив сервер и парализовав работу здания на 40 минут

П.с. радовались, что они с этим пылесосом по всем этажам не прошлись. Виновата была вилка, замыкавшая фазу на землю.
Автор поста оценил этот комментарий

Пару лет назад в московском дата-центре NORD произошел останов по причине перегрева. Разумеется, дата-центр оснащён мощной системой охлаждения, но то лето выдалось довольно жарким, и хотя кондиционеры работали в штатном режиме, внезапно один за другим они начали отказывать. Выяснилось, что чиллеры, которые стоят на улице выключились изза... перегрева! Виной всему оказался тополиный пух, который забил решетки радиаторов и препятствовал нормальному воздухо-отводу.

Иллюстрация к комментарию
раскрыть ветку
Автор поста оценил этот комментарий
возгорание в серверной Братской ГЭС привело к тому, что операторы перевели нагрузку на Саяно-Шушенскую... как результат - авария в 2009 году
Автор поста оценил этот комментарий
Проблемы у Samsung
20 апреля 2014 года случилось возгорание в офисном здании в г. Гвачон (Gwacheon), Южная Корея. Пламя быстро распространилось по всему зданию, не обойдя и ДЦ Samsung SDS.

Кто-то поставил прототип Note 7 на зарядку)

Автор поста оценил этот комментарий

Позже здание самсунга отозвали из-за неисправных отопительных батарей