У вас там компетентных админов вообще нет? Читаю текст - как будто смотрю сериал про айтишников, снятый некомпетентным режиссером. Ляп на ляпе.
>Отваливается сервер деплоя хоть ты стреляйся.
1. Где отказоустойчивый кластер критически-важной системы?
2. Зачем стреляться? Вся инфра должна быть завиртуализирована. Бахнул, переразвернул тачку и все работает
>Говорит - юзер инвалид.
Начни изучать DevOps-крактики и будет тебе счастье. У девопсов заходить на консоль сервака вообще считается моветоном. В идеале, админ/девопс не должен сам туда лазить
>Я ему - сам ты инвалид, а я твой админ, босс, хозяин, создатель и ваще высшее существо. Дай посмотрю шо у тебя в логах. Он мне - вон пошел, я тебя и в консоль не пущу патамушта ты инвалид и вообще у меня ПМС, ПТСР, ДЦП и ДТП (и блеванул в консоль кучу малопонятных цифер и буков).
Читай в сторону обсервабилити. У тебя разворачиваются всякие ELK, локи, прометеи, виктории и в разных кибанах/графанах смотришь разные графики, метрики, агрегированные и фильтрованные логи. Видишь ВСЮ необходимую инфу по тысячам серваков в одном окне. А если вообще грамотно строить, то у вас должна быть система алертинга, которая в телегоканал срет варнингами и алертами, а специально обученные мартышки с набором готовых HOWTO-шек по всем продуктам, обеспечивают 24 часовой мониторинг систем и минимальную починку.
>Ребут не работает, принудительная остановка не работает, выключение не работает.
1. ProxMox у вас такой древний? 3-4 версия? Попозже эту проблему вроде поправили.
2. Если не работает через веб-морду, всегда спасает CLI
>Чувствую что волосы в подмышках и паху становятся дыбом.
Тююююю. Первый раз на родео? Открывай распечатки аварийных планов по каждой системе
и без нервяков спокойно восстанавливай. Вы же хоть аварийные планы по выходу из строя железа, софта, виртуалок писали?
>Если наебнулся центральный контроллер датацентра - то мне пізда.
Если ты не виноват, а вышло из строя железо, то ты то почему должен пострадать? И что за фигня? У вас контроллер один? Критические системы не дублируются?
>Давай лихорадочно вспоминать где лежат какие бекапы.
Вспоминать? У тебя все должно быть написано в аварийных планах
>В процессе загрузки матерился по всякому. Да что ж с тобой такое-то???
Так по матюкам у линуксов обычно все понятно
>Придется усыплять, расчленять и поднимать из бекапа. А бекап у меня только прошлонедельный, что пичально но не смертельно...
Бэкапы должны быть ежедневные. Особенно критической инфры
>Подрываюсь и лечу в серверную... Ну так и есть. На клавиатуре сервера гордно возлежит никуда не подключеный шнур питания.
Детский сад, вторая четверть! Ремня вашим админам дать надо!
1. Почему стойки открыты и есть доступ посторонних к серверам, даже если попали в серверную? Ключи от стоек у админов. Не таскаешь всю коробку, а берешь только ключ от стойки, в которой работаешь. Отошел налить чаю, поссать, провести работы в другой стойке - эту стойку закрой на ключ. Это любой админ должен знать как "отче наш". Кто не делает так - набутыливать пока не начнет делать. Это бест практицес
2. Если серваки нормальные, то у каждого есть порт IPMI/BMC/iDrak/iLo. Включили сервак, порт по сети подхватил адрес, забил его в резервацию DHCP и дальше подключаешься через него, ось накатываешь, если это не делается у вас автоматизированно. Никаких клав и мышей. Совсем говеный сервер без этого порта? Ставим для таких убогих IP-KVM и все равно по сети рулим.
>Как раз на кнопке ESC. ЙОБТВОЮМАТЬ!!!!
Если уж нужна KVM-ка в стойке, убирайте колхоз и ставьте выдвижные. Занимает один юнит. Чтобы закрыть дверь стойки, придется сложить ее и задвинуть. Так что никакой кабель не помешает
Вы - сами себе изобретаете проблем от чудовищной некомпетентности, а потом героически решаете. Таких админов надо оптом увольнять и набрать нормальных, которые умеют правильно работать. А если изучите IaC, GitOps, то у вас не надо будет ничего нигде вспоминать. Все будет версионированно и централизованно в гите лежать. И вы там в скриптах декларативно указали, что и как должно выглядеть в вашей инфре, а "магия" будет сама подстраивать вашу сеть под желаемое состояние. Открой для себя волшебный мир взрослых практик: Ansible, Docker, Kubernetes, Argo CD... Именно в этом порядке. Остальной стэк познаешь сам. Ты будешь плакать, понимая, как неправильно ты раньше работал. Сколько человекочасов убил на ненужные ручные операции. Например, развернуть отказоустойчивый кластер Consul на 7 существующих серверов у тебя будет выглядеть примерно так (один из вариантов)
1. В инвентори-файл (что то типа /etc/hosts) добавляем группу консула и имена хостов
[consul]
consul-01.domain-name
consul-02.domain-name
consul-03.domain-name
consul-04.domain-name
consul-05.domain-name
consul-06.domain-name
consul-07.domain-name
2. В CLI вводим:
# git add --all
# git commit -m "Add Consul servers to inventory file"
# git push
И идем в графану смотреть на появление новых серверов в дашборде. Вся остальная "магия" должна произойти автоматически. Если внедрена IaC, то создание новых виртуалок под консул выглядит абсолютно аналогично.
Знаешь, что самое смешное? Грамотный девопс даже не будет добавлять в инвентори столько имен машин. Он схлопнет это до конструкции
[consul]
consul-[01:07].domain-name
Нужно не 7, а 100507? Аналогично!
[consul]
consul-[01:100507].domain-name
А дальше работает магия!