11

Падение "цисок" глазами дежурного инженера ЦОД.

Падение "цисок" глазами дежурного инженера ЦОД.


Заканчивался вечерний обход, мой напарник сидел в комнате дежурных и следил за происходящим в ЦОДе. Когда я пришел, он сказал что у нас отвалился интернет, и пока не понятно в чем дело. Сказал что уже позвонило пару клиентов и спросили почему их сервера недоступны. Я первым делом подумал, что у нашего оператора какие-то проблемы на линии, которые обычно он решает за считанные минуты (кто бы знал, что все будет на столько плохо...). Нам потихоньку начали названивать другие клиенты, и мы не находили ничего лучшего, как сказать что мы точно не знаем в чем проблема, сеть отвалилась у многих абонентов и сваливали всю вину на оператора, предоставляющего услуги интернета. Параллельно мы позвонили нашему руководству и сообщили о проблеме. Между звонками клиентов удалось дойти до помещения нашего системного администратора (благо он еще не успел уйти домой) и попытаться у него узнать, что происходит и почему у нас и множества клиентов отсутствует доступ паутине, на что он ответил, что пока что сам не понимает, что происходит. Где-то в течении часа были непонятки с ситуацией, и все начало прояснятся, когда один из наших начальников отправил сообщение примерно со следующим содержанием: "Коллеги, сегодня произошел массовый взлом оборудования cisco , в связи с чем наблюдается недоступность сетевого оборудования.

---здесь ссылка на статью из хакер ру---."
К тому времени, звонки от клиентов сыпались таким шквалом, что не успевали отвечать одному клиенту, как уже звонил следующий. Параллельно с этим мы еще должны были отвечать нашему непосредственному начальнику по телефону, что бы докладывать о происходящем.
В самый разгар "вечеринки" пришла можно сказать целая делегация IT-шников, которые сразу же пошли восстанавливать свое оборудование, параллельно рассказав нам в кратце, что происходит вообще и как с этим бороться. После этого мы уже смело отвечали клиентам, что вероятнее всего, проблема недоступности их оборудования заключается именно в этой атаке, и им необходимо обращаться к оператору, подключающему их к сети через свои коммутаторы. Был один клиент, который заявил, что мы гоним какую-то чушь, и типа мы во всем виноваты, но потом у него что-то произошло с телефоном, и вызов оборвался (хотя возможно, он увидел статью в интернете и понял, что нормально так накосячил, и что бы не извинятся, решил таким образом "уйти"). Наш системный администратор узнав причину сбоя, быстро начал восстанавливать сначала нашу сеть, что бы мы спокойно могли отвечать на заявки клиентов, а потом и восстанавливать остальные "циски". В итоге после массовой рассылки, и объяснения клиентам, что проблема скорее всего кроется в этом, звонки почти полностью прекратились, и сейчас (2.00 ночи) ЦОД работает практически в штатном ночном режиме [тишина и спокойствие].
К чему этот пост, спросите вы? Да не знаю. Как минимум хотелось бы, что бы перед тем как наезжать на сотрудников технической поддержки, вы выслушали их и обдумали все, что они говорят, после чего уже спокойно обсуждайте происходящее, а лучше просто поблагодарите за предоставленную информацию, и положив трубку дайте нам возможность выполнять непосредственно свои обязанности. Потому что помимо сбоя оборудования, есть и клиенты, которых это все не затронуло, и им необходимо, что бы с их оборудованием вовремя были выполнены другие работы.
Всем спасибо за внимание, интересна будет оценка поста и конечно же обоснованная критика. Всем удачи и поменьше сбоев с оборудованием :)

Вы смотрите срез комментариев. Показать все
1
DELETED
Автор поста оценил этот комментарий

Клиентам все равно, они платят деньги за сервис. Всегда можно подкинуть резервные железки и восстановить конфиги. Допустим Билайн на своих коммутаторах всегда имел шаблоны и система автоматически "заходила" и чекала конфиг на целостность и корректность.

раскрыть ветку (9)
Автор поста оценил этот комментарий

Тут система немного другая. Мы (дежурная служба) обеспечиваем работоспособность ЦОД-а в целом, то-есть что бы питание поступало, что бы посторонние не трогали чужое оборудование, что бы в случае пожара ущерб был минимальным, что бы оборудование охлаждалось. Но все, что относится к подключению к интернету, объединению нескольких серверов в одну локальную сеть, этим занимается компания, которая является посредником, и которая за все это отвечает.

раскрыть ветку (8)
1
Автор поста оценил этот комментарий
И причём тут клиент, который вам платит?
раскрыть ветку (7)
Автор поста оценил этот комментарий
При том, что они нам звонят и требуют что бы мы все починили, хотя мы к этому отношения не имеем.
раскрыть ветку (6)
0
Автор поста оценил этот комментарий
Но платят они вам, правильно?
раскрыть ветку (5)
Автор поста оценил этот комментарий
Не совсем. Есть компания - посредник, которая отвечает за правильную настройку и програмную работоспособность оборудования.
раскрыть ветку (4)
0
Автор поста оценил этот комментарий
Что значит, не совсем? :) Тут два варианта - платят вам, платят не вам.

Сомневаюсь, что стандартный маленький клиент ставит в ЦОД своё оборудование, а потом ещё ищет, где купить интернет, заключая отдельный договор.
раскрыть ветку (3)
Автор поста оценил этот комментарий
Нет, вы не поняли. Допустим мы - компания А, мы предоставляем серверные стойки, питание к ним и охлаждение. А так же услуги по перезагрузке, включению, выключению и мелких работах, типа проложить новый патчкорд, через bios выставить загрузку с диска, подключить КВМ и.т.п
А есть компания Б, которая рекламирует и выполняет услуги по первоначальной установке оборудования, подключения его к сети, настройке и.т.д.
Клиенты обычно звонят в компанию Б, и у них заказывают услуги, а уже компания Б связывается с нами и заключает договор с нами. Все задачи типа "перезагрузить сервер" клиенты отправляют в компанию Б, а они уже пересылают нам.
Есть конечно клиенты, которые напрямую работают с нами, но в тот день от них было только пару звонков, и как только они выясняли, что проблема связана не с работой ЦОД-а, они заканчивали разговор. Некоторые из них сразу составляли заявки на посещение, для работы со своим оборудованием.
раскрыть ветку (2)
0
Автор поста оценил этот комментарий
Так понятнее, спасибо за объяснение.
раскрыть ветку (1)
0
Автор поста оценил этот комментарий
Не за что :)
Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку