Ответ на пост «Страшно подумать как она флешки в компьютер вставляет!»

Думал коммент написать, но что-то много вышло.


Есть в парке конторы, в которой тружусь, некоторое количество серверов. В большинстве своём они оборудованы специальным железом и ПО, которое позволяет, в случае чего, удалённо подключиться к серверу и выполнить на нём какие-либо действия: команду непосредственно в операционной системе сервера, или, если ОС по тем или иным причинам не отвечает, сделать машине выкл/вкл по питанию.


Часть серверов ввиду своей некоторой несвежести, таким ПО и железом не оборудованы. Поэтому, приходится прибегать к помощи технических специалистов ЦОД'ов, в которых сервера располагаются.


Есть у нас один 2u сервер на 4 блейда. Примерно такой (лицевая часть):

Ответ на пост «Страшно подумать как она флешки в компьютер вставляет!» IT, Работа, Абсурд, Сисадмин, Ответ на пост, Длиннопост

Фактически, это четыре одинаковых сервера, объединённых на одном двухюнитовом шасси. То есть, четыре сервера в одной большой железке.


Эти сервера как раз не оборудованы штатным ipmi, который позволил бы, как я описал выше, удалённо управлять сервером, если с ним что-то случилось.


По закону Мёрфи на одном из блейдов этого сервера случилась внештатная ситуация, которая потребовала моего вмешательства. Дело было то ли в субботу, то ли в воскресенье. Написал соответствующую заявку в ТП ЦОД'a и делаю контрольный звонок. Трубку взял дежурный сис.админ, назовём его, допустим, Васей.


Здесь нужно сделать ещё одно небольшое отступление и рассказать о Васе. Вася, судя по его внешности, достаточно усердно занимается тяганием различных железок в тренажёрном зале. Ещё когда в первый раз его увидел, был удивлён. У всех такое бывает, когда первый раз в жизни встречаешь айтишника-качка. Плюс-минус это выглядит так:

Ответ на пост «Страшно подумать как она флешки в компьютер вставляет!» IT, Работа, Абсурд, Сисадмин, Ответ на пост, Длиннопост

Не имею представления, какое у него образование, но работу на этом месте он работает по принципу "моя хата скраю; а если не скраю, то нужна подробная инструкция, что от меня нужно". То есть, скорее всего, работа выбрана потому как "что-то платят, обязанностей не очень много, ходить в качалку четыре раза в неделю позволяет". Подчеркну, я, вероятно, заблуждаюсь, и Васян - отличный специалист, хотя и очень умело это скрывает, но за Васей в нашей компании закрепилась репутация косипора: почти каждое наше с ним общение и запрос помощи заканчивались не так, как того хотелось бы. В лучшем случае достаточно было позвонить в ЦОД снова и объяснить Васе, что он сделал не так и как это переделать. В худшем - приходилось ехать в ЦОД самостоятельно и устранять возникшую ситуацию своими руками. А это драгоценное время простоя в работе сервисов.


Вернёмся к моменту, когда трубку взял Вася. Я сразу понял, что сформулированную перед звонком в голове и в письме просьбу "задержать кнопку питания на 15 секунд, подождать 5 секунд и ещё раз нажать кнопку питания на этот раз на одну секунду" нужно менять, т.к. однажды такая операция, выполненная Васей, стоила нам перегрузки не того сервера (даже с учётом того, что все сервера в наших стойках проименованы специальными стикерами). В итоге попросил его подключить к проблемному серверу ЦОД'овский KVM - устройство, позволяющее получить удалённый доступ к серверной консоли внутри ОС. То есть, работаешь с командной строкой сервера, как будто на своей машине. Это не даст возможности перегрузить сервер, но так я бы визуально понял, что Вася правильно определил машину. После чего можно уже с более-менее спокойной совестью просить отключить KVM и следом перегрузить эту машину по питанию.


Василий, наученный горьким опытом перезагрузки не того сервера, несколько раз уточнил, к какому именно серверу нужен KVM. На что получил мои чёткие указания: "Сервер с именем %%SERVERNAME%% стоит в стойке N, которая находится в ряду M. Визуально: сервер на два юнита и четыре блейда, два в одном юните сверху, два во втором юните - снизу. Нужный блейд - правый верхний, если смотреть на лицевую часть сервера." На эти пояснения я услышал что-то вроде: "Всё понял. Ждите доступы к KVM на вашем email через 10 минут".


По пришедшим через обещанные 10 минут креденшелам захожу в KVM и вижу сервер в полном здравии. Секунд 10 понадобилось невнимательному мне, чтобы понять, что KVM подключен не к тому серверу (на это намекнул hostname, видимый в моём шелле на каждом сервере по умолчанию). Звонок в ЦОД. Примерный диалог (я и В - Василий):

Я: Васлилий, это снова Mmmo. КVM подключили не к той машине.

В: Я подключил квм к тому серверу, который вы описали.

Я: Подойдите к стойке.

В: Я у неё.

Я: Видите этот сервер? Два юнита. Четыре блейда. Нужная нода справа сверху.

В: Да, всё так.

Я: Обходите стойку. Идите к тыльной стороне сервера.

В: Тут.

Я: Нашли сервер?

В: Да, вот он, перед глазами. KVM подключен в нужную ноду.

Я: В какую именно?

В: В правую верхнюю.


Пара-пара-пам. Фиуть-бум.
Ответ на пост «Страшно подумать как она флешки в компьютер вставляет!» IT, Работа, Абсурд, Сисадмин, Ответ на пост, Длиннопост
Вы смотрите срез комментариев. Показать все
20
Автор поста оценил этот комментарий

Они такие. Свежая история - европейский провайдер, европейские имя и фамилия чудака в подписи саппорте (не индус, как говорится, если не маскируется) .
Пишем тикет с вопросом - на хосте стало время убегать, можно ли будет если что заменить шасси?
Ответ: чуваки, не вопрос, я вам щас батарейку поменяю, должно помочь.

Через 5 минут сервер (нода виртуализации если что, то есть падает сразу несколько виртуалок вместе с ним) пропадает из мониторинга.

Пока мы офигеваем и составляем петицию "какого ...%;;№2...шатаете без предупреждения и согласования"  ответ в тикете - "я поменял батарейку и включил сервер, все должно быть ок".


Мы пишем тикет - нефига не ок, сервер не доступен, по ipmi тоже.
Молчание - час, через час ответ "Здравствуйте, это коллега Клауса (ну или как его там звали, назовем Клаус), он закончил смену. Я обратил внимание что на вашем сервере выставлена загрузка по UEFI, которая, видимо, слетела после переставления батарейки."

Короче Клаус, скотина, без предупреждения "проапгрейдил" хост и со словами "я починиль" свалил со смены, даже не убедившись что хост поднялся.

Не  будьте как Клаус!

раскрыть ветку (15)
23
Автор поста оценил этот комментарий
Ну это фигня.До этого Клаус работал водителем погрузчика, там совсем плохо кончилось.
Иллюстрация к комментарию
2
Автор поста оценил этот комментарий

какого размера пизды вломили Клаусу ? меня бы за такое драли втроём насухую

раскрыть ветку (7)
1
Автор поста оценил этот комментарий

О, хоть один вменяемый человек в комментах нашелся :)
По ходу спустили на тормозах, неделю назад было. Тимлид замороченный сейчас другим, наши вопли проигнорил и не стал ситуацию форсить (а мог бы, через кейкаунта компании, уже были с ними раньше такие разборки), а сменщик Клауса написал шаблонный ответ про misunderstanding иии...все.
Но хостер, в принципе, так-то ничего и с саппортом тоже всякое бывает. Я помню как мы 2, сука, недели убеждали в тикетах у другого хостера на нам нужно вытащить из софтового рейда  диск и воткнуть другой, и что данные мы не потеряем, а с реконфигом рейда разберемся сами.  И вот там он полторы недели нас убеждал что не надо так делать и потом на каждое действие разрешения переспрашивал и дожидался однозначного подтверждения.

раскрыть ветку (6)
2
Автор поста оценил этот комментарий
я вообще хуею с комментаторов "есть регламенты" кококо. какие нахуй регламенты, это датацентр, может быть только один регламент - "даже, блять, не дышать на сервер, без чётких инструкций владельца сервака"
я по два дня договариваюсь с юзерами, чтобы к хосту вообще подойти, выключают и ребутают они либо сами, либо в режиме реального общения, когда чётко написали "все машинки остановлены, сервер переведён в maintenance, можете выключать/ребутать кнопкой"
раскрыть ветку (2)
Автор поста оценил этот комментарий

2 дня - это ещё божески. :-)

Автор поста оценил этот комментарий

+2, только так и можно.

1
Автор поста оценил этот комментарий

Перечитал коммент, сплошные англицизмы. До чего я докатился с этой работой :(

раскрыть ветку (2)
1
Автор поста оценил этот комментарий
стандартные айтишные термины, ничего необычного.
раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Коллега, подозреваю что кто-то кто не в теме, читает это случайно и слегка фигеет, чувствуя себя так же как я, когда читаю геймерский жаргон для MMO игры,  с которой не знаком :)

1
Автор поста оценил этот комментарий

Так вроде типичная ситуация.

Есть распространенная проблема для которой описан регламент. Исполнитель не думает он выполняет то что нужно сделать по регламенту. Это никакой не аврал чтобы из-за этого на работе задерживаться. В следующую смену придет другой. В 95% случаев все ОК. Иногда не ОК но это заметит либо клиент либо мониторинг. Если проблема окажется повторяющейся добавят в регламент.

раскрыть ветку (4)
2
Автор поста оценил этот комментарий
В каком регламенте описано без просьбы выполнять действие, которое тебя не просили делать? (а всего лишь поинтересовались возможностью - вдруг такого же железа нет на складе), при этом даже делать не то спросили, а то что ты как особо умный специалист посчитал нужным? Делать, вырубая продакшн сервер без предупреждения, не согласовав вывод сервера и окно майнтенанса? Наконец, не проверив результат своих действий? И не говоря уж о лучах поноса от порядка 5к человек, которые на этом сервисе тогда висели.
Не знаю, может для того кто привык к российским хостерам это ок (да и то уже скорее дикость чем практика) но у нас есть много с кем сравнить из европейских и это прямо косяк-косяк.
раскрыть ветку (3)
Автор поста оценил этот комментарий

В том регламенте где написано что в случае проблем со временем нужно заменить батарейку, сложность 15минут. Всё. Дожидаться чего-то не написано - это простой в который он может еще две заявки закрыть. После вашего инцидента может появится пункт что при замене батарейки проверить настройки ipmi (но странно что его там не было). Это не совсем российская практика - это как раз от европейцев идет - разбивать задачи на минимальные чтобы другой мог подхватить, требовать минимальный уровень знаний для возможности исполнения регламента. Конвейер с взаимозаменяемыми работниками. В некоторых конторах еще и штрафуют за то что правильно ответил клиенту самостоятельно, а не ответил шаблоном который формально подходил.

раскрыть ветку (2)
Автор поста оценил этот комментарий
Ерунда какая-то :( я не знаю где такие правила есть, но очень надеюсь что вырубать даже на короткий срок клиенту без предупреждения сервер, на котором неизвестно какой критичности приложения крутятся - это серьезное нарушение SLA. У нас несколько сотен серверов в полутора десятков ДЦ по всему миру, и от хостера, который начнет творить вот такую вот фигню на регулярной основе, мы быстро уйдем. И не раз уже уходили, по факту.
раскрыть ветку (1)
Автор поста оценил этот комментарий
А за составление такого регламента - пиздить сцаными тряпками, извините. И голосовать рублем, долларом, евро, где бы такое не творили
DELETED
Автор поста оценил этот комментарий

Это очень хорошо указывает на уровень компетенции сотрудников.

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку