Как я спасаю данные каждый день (или не спасаю): часть вторая⁠⁠

Wubba Lubba Dub-Dub, пикабушники, я вернулся из отпуска (но об этом отдельно).

Наконец закрылось окно бэкапа и теперь можем снова подушнить. В предыдущем своём посте я кратко рассказал о будничных пертурбациях инженера резервного копирования. В этой же части я расскажу о подходах нашей команды.

Как говорится: хорошая статья — залог успеха, заключённые согласятся, а мы поехали.

Как я спасаю данные каждый день (или не спасаю): часть вторая Работа, Волна постов, IT, СРК, Технологии, Пикабу, Пикабушники, Юмор, Длиннопост, Карьера, Фотография, Мемы

Давным-давно это был самый обычный кабинет под номером 611. В нём мирно и активно работали сначала продажники, после них продакт-менеджеры и не знали они бед. Мир шатко держался в равновесии, пока однажды народ инженеров не развязал войну и не отнял эту территорию. Хотя по некоторым данным кабинет освободился в ковидные времена, ну да ладно, в нём всё равно никто не сидел в период "самоизоляции".

С тех самых пор как в него перебрался я, бывший инженер службы эксплуатации центров обработки данных (ЦОД) и нынешний инженер систем резервного копирования, кабинет превратился во всеми почитаемый «Душный уголок», который открыт избранным и закрыт… неизбранным ¯\_(ツ)_/¯.

В нашем кабинете воистину собрались настоящие душнилы, но в то же время профессионалы своего дела. Я и коллеги совместными стараниями поддерживаем всю IT-инфраструктуру наших Заказчиков, будь то серверы, СХД, LAN/SAN, виртуализация, облачные сервисы, ОС, прикладные службы и СРК, само разумеется.

Так вот продолжим тему СРК. Со времён ещё когда-то тогдашнего ведения своей деятельности иностранных вендоров на территории РФ наша команда бэкаперов занималась поддержкой таких решений как Veritas NetBackup и Backup Exec, EMC NetWorker, CommVault и IBM TSM (последними двумя занималась только часть моих коллег, т.к. проектов по ним было не так много). В Veeam мы, конечно, тоже можем, но кейсов по ним на нас прилетало не так много.

Сейчас, после начала специального крестового похода, когда иностранные вендоры ушли, мы продолжаем пользоваться нашей богатой экспертизой и поддерживать эти продукты у тех, у кого они ещё остались, но также наш портфель пополнился свежими решениями: Кибер Бэкап, РуБэкап и парочка китайских Aishu AnyBackup и VinChin. Open source решения мы не поддерживаем, т.к. профита в такой поддержке нет. К тому же комьюнити само по себе хорошо справляется с настройкой и траблшутингом.

Чем бэкапим мы разобрались. А вот на что — тут уже зоопарк поразношёрстнее. Тут всё работает по классике: "горячие" данные крутятся на SSD-стораджах, а вот "холодные" и "архивные" уже у нас на HDD и ленточных носителях. В самых редких случаях используются и VTL (Virtual Tape Library). Я уже понял, что вам интересно узнать обо всём чуточку подробнее, поэтому в дальнейшем планирую выпустить статьи по терминологиям и компонентам СРК. Пишите в комментариях о чём вам хотелось бы узнать.

В комментариях к прошлому посту упомянули про такое золотое правило как «3-2-1». Оно гласит следующее: храни не менее 3 копий — 2 на нескольких разных хранилищах и 1 на удалённом. Это самое короткое пояснение, но не самое подробное. На самом деле у нас есть своё правило, которое звучит так: «Храни копии так, чтобы ты всегда смог из них восстановиться».

Можно бесконечно много проектировать инфраструктуру так, чтобы у тебя был переизбыток, но это не всегда оправдано, т.к. бэкапы не ограничиваются 3 копиями. Обычно это длинные цепочки полных и промежуточных копий, которые хранятся месяцами и важно осознанно подходить к тому, что тебе нужно хранить, а что нет. И тебе обязательно нужно учитывать как оно хранится: в каком виде, как получить доступ к этим копиям, а как получить доступ, если доступа не будет. И это не правило резервного копирования — это серьёзная задача к построению отказоустойчивости и катастрофоустойчивости всей инфраструктуры.

Вот здесь мы подходим к тому, что связность всегда должна быть при любой ситуации. Грамотный выбор сетевого оборудования, интерфейсов, компонентов и среды передачи данных позволяет распределять нагрузку на сеть, масштабировать её, защищать информацию и обеспечивать доступность даже в критических условиях. Это отдельная очень большая тема.

Сейчас важно лишь понимать, что в нашем случае есть несколько типов сетей: вычислительная сеть (LAN/WLAN), через которую проходит связь компонентов и взаимодействие протоколов, обеспечивающих мониторинг, управление, да в принципе любое привычное взаимодействие компьютеров, серверов и периферии; и сеть хранения данных (SAN), через которую осуществляется выделенная высокоскоростная передача данных между системами и устройствами хранения.

Сразу скажу, что резервные копии могут передаваться и так, и так. В идеале, резервное копирование эффективнее выполнять напрямую по SAN, т.к. даже при равной пропускной способности каналов она обеспечивает более надёжное и быстрое взаимодействие дисковых подсистем, не забивая при этом вычислительный канал связи. Но это не всегда возможно (например, с облачным хранилищем).

В нашей работе мы придерживаемся традиционных планов РК (резервного копирования), в которых любое взаимодействие с данными продуктивных систем происходит в наименее загруженные часы. Как правило, это время с 20:00 до 08:00 в будние дни и выходные дни целиком, если это компания с базовым 5-дневным графиком. Однако для каждой компании могут быть свои исключения вплоть до определённой информационной системы.

Например, резервные копии некоторых чрезмерно больших кластеров баз данных выгоднее по производительности создавать с клона стэндбай ноды, который был создан на уровне СХД. Для чего? — Чтобы не создавать излишнюю нагрузку на стэндбай, т.к. это приведёт к задержке синхронизации активной ноды со стэндбай и это будет очень нехорошо для прикладной системы (кто угадает о какой СУБД идёт речь?). К счастью, такие ситуации бывают редки и во всех остальных случаях кластеры мы бэкапим просто с его стэндбай ноды.

Ну и давайте затронем тогда уже тему того, как мы проверяем резервные копии. Конечно, такие проверки возможны лишь там, где это позволяет функционал выбранного ПО СРК, но как правило всё сводится к тому, что резервная копия проверяется на целостность с помощью контрольных сумм, восстановления где-нибудь в виртуальной песочнице, либо фактического штатного восстановления.

Копия прошла проверку? — Хорошо, однако это всё равно не гарантирует нам того, что в нужный момент мы сможем из неё восстановиться. Почему? — Потому что в нашей работе на всё нужно смотреть пессимистично. Чем больше ты найдёшь для себя причин «почему это сломается» — тем больше ты проработаешь моментов, которые увеличат шансы на успех. Поэтому мы всегда в первую очередь обращаем внимание не на то, сколько копий мы храним, а как мы это делаем.

Работать инженером СРК не только очень весело... но и не очень. СРК — это в принципе система, которая внедряется с надеждой на то, что ею никогда не придётся воспользоваться (или хотя бы не так часто). И это не потому, что она такая страшная — нет. Просто в первую очередь СРК служит прекрасным спасением при человеческом факторе и вмешательстве. Потеря данных систем по причине неполадок железа, как правило, должна пресекаться на уровне самого железа.

Поэтому несмотря на все мемы — к бэкаперам обращаются чаще всего тогда, когда либо кто-то что-то нажал и всё пропало (в случае с плохим мануал-терапевтом мы тут вам не поможем), либо когда всё сломалось настолько, что спасут только бэкапы.

Увидимся в новых сериях!

user5450919

10 месяцев назад

Вот сейчас древнее слово скажу на довах-зуле. Это примерно из тех эпох, когда Одавинг с Алдуином беседовали. Или ещё раньше.

StorageTek Powderhorn 9310

раскрыть ветку (1)

Ret666KM

10 месяцев назад

Некоторые от SL8500 уже шарахаются, когда видят, а этого дракона так вообще только в съёмках звёздных войн использовать.

Jimmdimen

10 месяцев назад

Спасибо за статью. интересно почитать про "другую сторону баррикад" (я работаю в QA одной из компаний упомянутых выше)

раскрыть ветку (1)

Ret666KM

10 месяцев назад

И вам спасибо, планирую развивать эту тематику, подписывайтесь)

huitres

10 месяцев назад

Было дело, работал в ТП одной из упомянутых в тексте поста контор.
Вот вам маленькая байка из жизни сотрудников ТП бэкапного софта.

Представьте себе, ночь, опенспейс, пустой офис, тишина и тьма кругом, только в загородке где обитает техподдержка слышны приглушенные голоса: работает ночная смена, та, которая обслуживает США.
Сотрудник ТП совместно с каким-то чуваком с той стороны океана третий час пытаются восстановить бэкап какого-то охуенно важного сервера. Бэкап не восстанавливается.
Суппортер (С) - да, ситуация не совсем стандартная, предлагаю сделать перерыв. Пока там у вас будет ночь, я обсужу вашу проблему с разработчиками, и мы точно что-нибудь придумаем. Завтра утром все восстановим.
Чувак с Той Стороны Океана (ЧТСО) - не-не, мужик, надо сделать сейчас.
С - ну ок, давай тогда попробуем вот тут подкрутить и вот тут поменять, наверное заработает тогда
пробуют, бэкап разворачивается, система снова не грузится.
С - предлагаю все-таки на этом месте пойти домой. Мы тут у себя поковыряемся, и завтра точно восстановим все
ЧТСО - не-не, я не могу пойти домой, пока этот сервер не восстановим
С - ну ОК, давай тогда еще вот такую штуку попробуем
Пробуют еще несколько штук, ничего получается. Время по Москве приближается к трем часам ночи, на той стороне океана уже 8 вечера. Америкосы обычно не любят переработок и довольно легко соглашаются перенести все на завтра. Но не в этом случае.
Стокгольмский синдром - страшная сила, поэтому беседа двух запертых в тесной комнате зума технарей становится все более и более неформальной и доверительной.
В какой-то момент взаимное доверие достигает той степени, после которой ЧТСО решает посвятить нашего парня во всю глубину своего отчаяния:
ЧТСО - Мужик, я правда не пойти домой, пока не восстановлю этот сервер. Это не фигура речи, это так и есть. Понимаешь, то что мы восстанавливаем - это контроллер СКУД в здании, где я нахожусь. Пока он лежит, валидатор не примет никакую карточку. Я просто не смогу открыть дверь, пока мы его не поднимем!

раскрыть ветку (1)

Ret666KM

10 месяцев назад

Эпичная история, спасибо, что поделились)

Fenixoid

10 месяцев назад

Последние полтора года активно используем в связке с PVE) Ну и так, с десяток обычных хостов Linux бэкапим. Возникают вопросы при росте количества виртуалок (свыше 200), но вопросы скорее с отзывчивостью доступа, да и они возникают из-за скорости дисков похоже) А в остальном довольно неплохо, нативные связки между различными локациями и тд

раскрыть ветку (1)

Ret666KM

10 месяцев назад

Интересно) Нужно будет попробовать протестировать. Обычно часто такие решения рано или поздно упираются во что-то на больших объёмах, но главное, чтобы свою функцию отрабатывал хорошо)

показать ответы

Fenixoid

10 месяцев назад

А может изучали связку Proxmox VE + Proxmox BS? Ну или только pbs как инструмент бэкапа)

раскрыть ветку (1)

Ret666KM

10 месяцев назад

Сам PBS мы отдельно не рассматривали, но коллеги тестировали PVE в рамках пилотной инсталляции, а мы пробовали подружить его с решениями из портфеля "свежих" (пока что из 4-х модуль бэкапа есть только у RuBackup, и то для 6 версии).

PBS в первую очередь видим как пока единственное средство для бэкапа именно PVE, но в остальном оно мало представляет сейчас интерес)

А вот на сам PVE спрос растёт, народ пользуется да и на его базе уже успели несколько виртуализаций сделать (н-р, Glovirt и Альт Сервер Виртуализации).

У вас уже был личный опыт использования PBS?)

показать ответы

Ret666KM

10 месяцев назад

Друзья, в июле занимался рабочими моментами закрытия квартала и полугодия. Также параллельно рецензирую сейчас книгу по бизнес-аналитике и пишу большую статью для Хабра.

Ждите много нового контента)