Яндекс Облако - держитесь подальше⁠⁠

Сегодня у меня были удалены продакш сервера в Яндекс облаке. Без предупреждения и объявления войны. Вот ответ техподдержки

«Сегодня мы проводили технические работы в Яндекс.Облаке. К сожалению, из-за человеческого фактора были удалены виртуальные машины пользователей в зоне ru-central1-c, которые хоть раз находились в статусе SUSPENDED. Мы сразу заметили ошибку и остановили удаление. Увы, некоторые ВМ и их boot-диски были удалены.»

Человеческого фактора, Карл! Мы на амазоне за 10 лет ни один раз не столнулись с человеческим фактором. В облаках! Человеческим! Злости не хватает (бекапы есть, да, но часть данных потеряна)

Update: позвонил руководитель направления. Если кратко: у нас говногод, программисты совершают ошибки, из за этого потерялись данные. Просим понять и простить.

376

Вы смотрите срез комментариев. Показать все

104

k0nstantt1n

6 лет назад

Вы точно админ? Слишком много эмоций, не единственный оператор у которого подобное происходит. Вы как ошибка выжившего. За 3 года, лично у меня, с амазоном было штук 5 инцидентов.

раскрыть ветку (28)

creator

сделал эту фигню 6 лет назад

+1 - у всех провайдеров бывают проблемы. я встревал на hetzner и digital ocean. Бэкапы и репликации нужно делать, и уметь раскатать систему с нуля за минуты, тогда это не проблема.

раскрыть ветку (10)

ArhStrAngeR

6 лет назад

Может почистите карму и напишете как правильно все сделать?

Думаю хотя бы для общего образования будет полезно.

У меня делаются бекапы сайтов/базы через скрипт и скачивается в 2 разных места.

Но все равно, если что-то случится с серваком - то минимум 4-6 часов буду восстанавливать все...

раскрыть ветку (5)

deleted2

6 лет назад

Просто держишь рабочий сайт поднятым еще в одном месте доступным для белого списка ip. Mysql на нем в слейве, с бинлогом не позднее последнего бекапа базы, лучше еще в паре версий, с задержкой репликации и нет. Если все очень плохо - быстрее перекинуть всех на уже поднятый резерв, чем ждать, пока бекап раскатается.

раскрыть ветку (3)

Ankor

6 лет назад

Зачем перекидывать что-то руками, когда есть Docker Swarm / Kubernetes? Руками это всегда задержка и риск того, что будете недоступны.

раскрыть ветку (2)

deleted2

6 лет назад

Ну как то неохота ради того, что без проблем решается скриптом на пол-странички вешать на себя поддержку виртуализации и риски и косяки с этим связанные.

fasterstronger

6 лет назад

Вот любители пихать во все дыры Docker Swarm / Kubernetes... По мухам из пушки.

creator

сделал эту фигню 6 лет назад

Зависит что на фронте/бэке.
Если фронт - обычный SPA (Angular/React/Vue) - держим его на CDN. Бэкапить его смысла нет, если пользоваться например Gitlab, то даже если текущий CDN забанит роском##зор, сменить адрес заливки и перебилдить - недолго, пара минут.
С базой интересней и сложней - для базы всегда имеет смысл держать readonly-реплику в режиме standby, и несмотря на это не забывать о бэкапе, и главное о проверке сделанного бэкапа (проверять хотя бы раз в месяц, раскатывая бэкап на новую машину). Мониторинг должен быть и мастера и реплики. Если мастер сдох (редко, но бывает), то переводим реплику в режим мастера. Это опять же недолго, не забываем делать внутренние dns короткоживущими. Если это все сложно, можно просто воспользоваться например сервисами AWS RDS - там это все упростили, но стоит дороже DO и товарищей, для пет-проекта не очень.

Бэкенд сервера имеет смысл держать на docker swarm или kubernetes. Есть нюанс "не протерять кворум", вот тогда может быть действительно больно. Но в большей части случаев теряется один сервер, и это не критично - кворум сохраняется, потеря быстро восполняется.

mr.pooppy.butt

6 лет назад

Подпишусь на ответ ниже)

раскрыть ветку (3)

bigbadwolf161

6 лет назад

Выше

раскрыть ветку (2)

Ezingrin

6 лет назад

Блять, как выйти из цикла!

раскрыть ветку (1)

creator

сделал эту фигню 6 лет назад

break;

DELETED

6 лет назад

Админы делятся на две категории, кто ещё не делает бекапы и кто уже делает.

раскрыть ветку (1)

creator

сделал эту фигню 6 лет назад

Те кто делают бэкапы, деляться на тех кто их потом проверяет, и тех кто еще нет

dobrovolskiy

6 лет назад

Нет, директор. Потеря данных у меня была 2 раза. Оба российские провайдеры

раскрыть ветку (14)

k0nstantt1n

6 лет назад

Понятно. Запомните одну вещь, никто не даст вам никаких гарантий. Всегда случаются инциденты, вопрос только в том насколько дорого это обойдется. Никакие облака не помогут, да вероятность ниже, но не 100%. Даже если 99.99, вы можете оказаться через неделю в этих 0.001% которым не повезло. Самое правильное - это иметь план действий, даже если на датацентр упадет метеорит.

раскрыть ветку (10)

DELETED

6 лет назад

На дне океана акулы кабеля кусают. Не прокусывают, конечно. Но сам факт что ни на одном этапе передачи информации нет 100% безопасности процесса.

DimASS1980

6 лет назад

0.01%

dobrovolskiy

6 лет назад

Пока в памяти только десять лет безупречной работы с облаками амазона

раскрыть ветку (7)

Runet111

6 лет назад

Вам просто повезло если у вас даже свой собственный отличный Датацентр вы не застрахованы от ЧП пожар например так что только бэкапы и избыточноть, да дорого. Но вот вопрос сколько сейчас ущерба было и стоит ли это владением еще одним сервером(и) баз данных за год.

FocalFossa

6 лет назад

Кстати, digitalocean мои машины дважды терял. Для амазона я просто всегда нищебродом был, ничего за них не скажу.

А из русских очень неплох flops.

pikalike

6 лет назад

https://habr.com/ru/post/262043/

Alexuit

6 лет назад

а зачем тогда воспользовались яндексом?

раскрыть ветку (2)

dobrovolskiy

6 лет назад

Хранение данных в России

раскрыть ветку (1)

yGaRz

6 лет назад

Почти на 100% уверен, что для закона об обработке персональных данных.

kotissimo

6 лет назад

Это и есть ошибка выжившего.

ещё комментарии

Hakunin

6 лет назад

ЫЫ, то есть это еще и не в первый раз? :facepalm:

Wetalya

6 лет назад

Задумайтесь, о скольких проблемах вы ещё не знали)) ох ручаюсь, что их не 2. Фейлится все и всегда. кластеры, балансеры, реплики - это уже давно не ноу-хау, а постоянная и неотъемлемая часть любого серьезного прода

r3l0c

6 лет назад

Сижу на 1cloud уже года три. Доволен как слон

ещё комментарии

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества