Истории уже не инженера по гарантии, часть 3.
Наверное, последняя история про ИТ. Как оно бывает и что там вообще может быть. Я понимаю, что большинству это не интересно, напишу только для тех, кто просил, благо они в подписчиках.
На этот раз никакой мистики.
Итак, года 4 назад мы начали разрабатывать свою продакшн систему. Это была некая CRM с очень тяжелой базой данных. Работала на ней контора оборот которой составлял примерно 5 миллионов в день. Надо понимать, что простой системы даже в 1 день это потери, пусть даже в 10% это 500 000, а в реале там больше.
Изначально был разработан план резервирования системы. Планировали мы построить второй ЦОД, забрать железо от старой системы, чуть проапгрейдить и сделать копию. Железки пришли, начали делать и выяснили, что температурный баланс серверной поплыл – перегревается. Изначально в серверной планировалось три кондея, в работе – 2. Надо ставить третий. Делаем заказ, пришли люди, ставят. И вот в процессе установки прибегает ко мне один из ребят, занимающихся почтой с фразой – «серверную затопило».
Честно говоря – мозг поплыл сразу. Как на автомате я дошел до серверной, увидел человека пытающегося заткнуть трубу из которой хлестала вода, пнул своих ребят отключать питание, что-то отключил сам, в общем – отработали. Обесточили все, начали выносить сервера. Оказалось, что вот та труба на потолке, обозначенная как «система вентиляции» это жидкостный привод вентиляторов. Если бы раньше знать! Фактически у нас утопили оборудования на 20 миллионов рублей. Пока пацаны выносили и разбирали сервера и СХД я уже начал звонить, думать и так далее. Вариантов немного, нужна была полная копия системы, правда есть шанс перейти из SMB в Enterprise, не создавать копию, а взять нормальную систему повышения плотности, blade или что-то в этом роде. Начали. Как мы собирали по всей Москве нужные нам железки разговор отдельный. Что-то выкупалось со скидкой у IBM, а что-то бралось с накруткой процентов 20-30, потому как надо и завтра. Но купили.
А потом, потом мы фактически жили на работе месяц. Да, с премией, да с оплатой переработок, но так я не пахал до этого никогда. Восстановить систему, сделать тот самый резерв и все это в кратчайшие сроки. Похвастаюсь – восстановление боевой части системы прошло за 3 дня. Полной примерно за 10.
Ну и выводы – да, все было криво. По большому счету мы сами виноваты, что пришлось столько пахать, сами виноваты, что вообще допустили подобное. Но, как говорится – экономия. Вопросы по надежности были задолго до инцидента и убедить руководство в необходимости превентивных мер не удалось. Наверное, я в этом и виноват. Кто знает?
На этот раз никакой мистики.
Итак, года 4 назад мы начали разрабатывать свою продакшн систему. Это была некая CRM с очень тяжелой базой данных. Работала на ней контора оборот которой составлял примерно 5 миллионов в день. Надо понимать, что простой системы даже в 1 день это потери, пусть даже в 10% это 500 000, а в реале там больше.
Изначально был разработан план резервирования системы. Планировали мы построить второй ЦОД, забрать железо от старой системы, чуть проапгрейдить и сделать копию. Железки пришли, начали делать и выяснили, что температурный баланс серверной поплыл – перегревается. Изначально в серверной планировалось три кондея, в работе – 2. Надо ставить третий. Делаем заказ, пришли люди, ставят. И вот в процессе установки прибегает ко мне один из ребят, занимающихся почтой с фразой – «серверную затопило».
Честно говоря – мозг поплыл сразу. Как на автомате я дошел до серверной, увидел человека пытающегося заткнуть трубу из которой хлестала вода, пнул своих ребят отключать питание, что-то отключил сам, в общем – отработали. Обесточили все, начали выносить сервера. Оказалось, что вот та труба на потолке, обозначенная как «система вентиляции» это жидкостный привод вентиляторов. Если бы раньше знать! Фактически у нас утопили оборудования на 20 миллионов рублей. Пока пацаны выносили и разбирали сервера и СХД я уже начал звонить, думать и так далее. Вариантов немного, нужна была полная копия системы, правда есть шанс перейти из SMB в Enterprise, не создавать копию, а взять нормальную систему повышения плотности, blade или что-то в этом роде. Начали. Как мы собирали по всей Москве нужные нам железки разговор отдельный. Что-то выкупалось со скидкой у IBM, а что-то бралось с накруткой процентов 20-30, потому как надо и завтра. Но купили.
А потом, потом мы фактически жили на работе месяц. Да, с премией, да с оплатой переработок, но так я не пахал до этого никогда. Восстановить систему, сделать тот самый резерв и все это в кратчайшие сроки. Похвастаюсь – восстановление боевой части системы прошло за 3 дня. Полной примерно за 10.
Ну и выводы – да, все было криво. По большому счету мы сами виноваты, что пришлось столько пахать, сами виноваты, что вообще допустили подобное. Но, как говорится – экономия. Вопросы по надежности были задолго до инцидента и убедить руководство в необходимости превентивных мер не удалось. Наверное, я в этом и виноват. Кто знает?
Вы хотите головоломок?
Их есть у нас! Красивая карта, целых три уровня и много жителей, которых надо осчастливить быстрым интернетом. Для этого придется немножко подумать, но оно того стоит: ведь тем, кто дойдет до конца, выдадим красивую награду в профиль!