Пару лет назад позвали меня порешать катастрофу на соседнем проекте.
Вводные:
Сервер внезапно стал упираться в память и уходит в своп
Админа нет. Разраба нет. Вендор не хочет помогать
Заказчик звонит технарям каждые 15 минут и не дает работать
Сам сервис естественно лежит.
Первая моя мысль - а что, блядь, случилось?
Ну типа в пятницу все работало ок, а в понедельник посыпалось, явно какой-то мудак что-то обновил.
Начинаю копать, задавать миллиард вопросов в секунду.
А меня посылают нахер, мол не мешай вопросами, мы починим. Лезут тупые менеджеры, только вопросы задают и не помогают, да?
Спойлер - нихуя никто не починил, ПОТОМУ ЧТО:
1. Это новый сервер. И проблемы не на пустом месте, а связаны с миграцией, что уже сильно меняет картину. )
На сервере кстати 12 терабайт памяти, любые манипуляции по рестарту БД - 4 часа.
2. Сервер никто не тестировал. Как привезли из-за бугра, так сразу выполнили миграцию, отважные люди. ))
3. При миграции были установлены новые версии БД и ОС, которые не тестировались на версии ПО вендора. )))
4. Рекомендованные настройки ОС и БД не выполнены, установили из коробки и забили ))))
5. Ну и фаталити - переезд был выполнен в пятницу. В последний рабочий день главного админа проекта . )))))))))))
Когда я весь расклад директору расписал, мы как-то даже не поняли, как вообще помочь заказчику в данном случае.
Более того - почти все решения (кроме п.1 и п.4) продавил заказчик, который в ИТ ничего не понимает, а команда не смогла "отбить удар" и сделала то, что он просил.
Поэтому меня и просили "не лезть" т.к. проебались там все по кругу и не раз.
Стоит ли вообще говорить, что заказчик не сознался и все стрелки перевел на "прошлого" админа?
ЕСТЕСВЕННО БЛЯТЬ требования не отражены в почте, все на словах.
Это внутренний заказчик, ну видимо его цель была все свалить на ИТ и выйти чистеньким, потому что ситуация - пизда.
Итог закономерный - я собрал аварийную команду и мы сутки пытались завести новый сервер в нужной конфигурации, безуспешно.
Старый сервер уже успели куда то увезти!!! и законсервировать!!!. Я хз кто и как это сделал, потрясающая скорость.
Была выполнена обратная миграция на старый сервер.
Проблема оказалась в связке процессор - версия ОС - версия базы SAP - конфиг базы.
Вендор дал нужную сборку (через месяц, этож SAP, дорого и больно) и все поехало.
Сами себе проблем придумают, сами их героически решают, премию за геройство выписывают, хвалят друг друга, как они ночами не спят ...