211

Про подготовку к проведению работ (сисадминское)

Серия Как это - работать сисадмином/сетевиком

Я вообще всю неделю писала пост не про это, но вчера посмотрела митап от селектела и что-то вдохновилась, тема отозвалась живой болью.

Казалось бы, банальность, но я её озвучу: к работам, затрагивающим критическую инфраструктуру компании, нужно готовиться. План работ поможет вам не тупить в экстренной ситуации, а так же правильно рассчитать время и прикинуть риски.

Риски, которые по неопытности можно пропустить:

  • Что будет, если на твоём рабочем месте (или дома) отключится электричество? У тебя заряжен ноутбук? Он может работать от PowerBank?

  • Что будет, если у тебя отключится интернет/удалёнка? В выходные РКН любит тестировать отключение VPN, есть ли у тебя альтернатива? Твой телефон сможет раздать интернет?

  • Что будет если ты потеряешь доступ к оборудованию? Да-да, план нужен в том числе, чтобы доступ к оборудованию не потерять, но все мы люди, так всё же?

    Ты знаешь как дозвониться инженеру в ЦОД? Ты являешься доверенным лицом? Возможно, у тебя спросят ИНН, номер договора и секретный код - они не на той шаре в том ЦОД, к которому ты потерял доступ? Ты знаешь, в каком юните и стойке там оборудование, твой netbox не там же где и номер договора? У тебя самого есть пропуск в ЦОД/офис/серверную, оформленный на даты работ? Охрана офиса в курсе? (например, у меня круглосуточный пропуск на работу, но охрана ночью запирает дверь и уходит спать - без дополнительного предупреждения не попадешь в здание).

    Самые "опасные" работы лучше проводить на месте, однако работы могут казаться безопасными для проведения их удаленно, а случиться может что угодно. Как известно "удалённая правка ACL - к дальней дороге".

Про подготовку к проведению работ (сисадминское)

Опустим банальщину про то, что нужно сделать бэкапы до начала работ и проверить их корректность.

Что надо иметь в виду помимо "что если":

  • Контрольное время: если до контрольного времени не заработало или не дошли до пункта Х, то откатываемся. И да, конечно же, план отката. Чаще всего, в вашем распоряжении не всё время мира, а "слот с 20 до 00, потому что дальше проснётся Камчатка". Даже если у вас на работы все выходные, нужно понимать контрольную точку отката, так как если вы поймёте в 7 утра понедельника, что работать это не будет - может стать довольно неприятно, когда компания начнет рабочий день. Точка отката у меня обычно находится примерно на 2/3 отведенного времени, конкретно зависит от вашего плана восстановления. Вы должны успеть вернуть инфраструктуру в рабочее состояние к концу отведенного слота.

  • Точка невозврата. Бывает такое, что какой-то этап нельзя прервать (обновление BIOS, например) или после какого-то этапа откатить результат нет возможности (например, обновление прошивки, которая не даунгрейдится). В этом случае нужно прикинуть самые плохие варианты - не прошилось, всё, потеряно оборудование, восстановление или очень долгое или невозможно в текущих условиях - стоит прикинуть альтернативы, чтобы не впасть в панику. Или наоборот, вы успешно прошли точку невозврата - прошилось, но теперь только вперёд, это тот единственный случай, когда нужно настраивать до победного.

  • Критерии того, что работы прошли успешно. У вас должен быть чек-лист (пример будет ниже). Помните, если вам кажется, что всё работает - это не значит, что всё и правда работает.Подумайте также о соответсвующих доступах для проверки сервисов (пусть вам наделают клиентских учеток или для проверки выйдет компетентный пользователь)

  • Что могут затронуть ваши работы - лучше оповестить всех причастных. Например, вы собираетесь колбасить сеть, а программисты вместе с инфраструктурой наметили переезд сервера СУБД и им критично гонять пару-тройку терабайт данных без перерыва именно в это же время. Или вы обновляете сервис А, но уже все давно забыли, что сервис J к нему цеплялся по API, которые изменятся при обновлении. Лучше оповестить непричастных, чем забыть такие вещи.

Из личных примеров: у меня было две попытки перенести сервер колл-центра в ЦОД (он работают круглосуточно).
В первой попытке перенос был неудачный, не заработали исходящие звонки, настроить их в разумное время я не смогла (на тестах ранее вроде работало, а вживую нет). Это помимо кучи более мелких проблем, типа потери интеграции с внутренним софтом. И мной было сказано "откатываем".
Второй перенос был одновременно с обновлением софта колл-центра. Учли, казалось бы, всё. Но вылезли непредвиденные проблемы (непредвиденно было, что нужный оплаченный сторонний специалист их решить не мог и пришлось экстренно разбираться мне). Планировался перерыв связи два раза по 15 минут, а был перерыв 6 часов в итоге (я заранее оповестила, что планируем 30 минут, но может быть до 8 часов). Мы были просто в минутах от часа Х и решении об откате, но прошли контрольную точку и я сказала, что всё, чек-лист по переносу работает, обновляем и жгём по полной. Ух, как я понервничала, но была готова откатить, несмотря на то, что вышло работать в выходной хуева гора связанного народа - от программеров до саппорта первой линии. У меня был план и я его придерживалась)

По поводу проверки результата - например, вы меняете сервер телефонии, минимальный чек-лист может выглядеть так:

  • Телефоны обычные грузятся, получают корректный ip, прошивку на русском языке, высвечивается номер и фамилия

  • Телефоны ТОПов делают всё, что обычный + грузятся доп панели

  • Транки с провайдерами подняты

  • Работают входящие звонки: играет IVR, при наборе внутреннего номера звонит нужный телефон, при отсутствии набора звонит группа секретарей. При подъеме трубки слышно обоих собеседников в обе стороны. При ожидании играется музыка.

  • Работают исходящие: на местный городской, мобильный и междугородний номера. Слышимость также в обе стороны.

  • При исходящем на мобильный мы видим корректный АОН, который светится на мобильном. АОН соответствует ожиданиям (с конкретных номеров нужный АОН, из Воронежа виден Воронежский номер и т.д.).

  • Работают внутренние звонки по короткому номеру, высвечивается фамилия абонента

  • Работает перевод звонка, удержание

  • Работает индикация на доп-панелях и вызов с них

  • Производится запись разговора, файл в корректном формате на сервере, прослушивается

  • Производится запись в лог на сервере, записи похожи на правду

Конечно, этим мы не проверим ВСЕ функции и фичи. Но данных маркеров достаточно, чтобы понять, что более-менее работа организации не встанет колом в начале рабочего дня, клиенты дозвонятся и всё вот это.

Что в итоге? Во взрослых конторах обычно есть регламент внесения изменений в критическую инфраструктуру, который всё это старается учесть. Что не избавляет их от периодических факапов.
Всё предусмотреть невозможно, но здраво прописанный план Б, В и Г сбережет вам много нервных клеток. Не надо бояться откатить всё и сказать "не в этот раз". Ваш героизм "я точно добью к утру понедельника", "надо докатить раз начали", "зря я что ли в ночь вышел" никому не нужен и опасен тем, что вы не добьёте, не успеете и пострадает бизнес.

А ещё я перешла на сторону зла и завела тележку, ссылка в профиле. Там пока нихрена нет, но я хочу попробовать формат коротких постов, отличных от моего формата на пикабу.

Лига Сисадминов

2.6K поста19.1K подписчиков

Правила сообщества

Мы здесь рады любым постам связанным с рабочими буднями специалистов нашей сферы деятельности.

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества