Почему меня нервируют отказы современных SSD⁠⁠

Предисловие - Это НЕ МОЙ сервер, я на критически важных данных не использую СДД совсем, информация взята на стороне.

"Сегодня один из SSD на одном из наших новых файловых серверов под Linux умер. Это не первая и, вероятно, не последняя смерть SSD, с которой мы столкнёмся, но, как почти всегда в таких случаях, я почувствовал, как шалят мои нервы – а всё из-за сочетания характера отказов SSD, их похожести на «чёрный ящик» и твердотельной природы.

Как и большинство других отказов SSD, этот произошёл внезапно; диск перешёл из состояния прекрасно работающего в состояние вообще не реагирующего ни на что секунд за 50, без какого бы то ни было предупреждения через SMART или что-либо ещё. Вот он радостно обрабатывает запросы на чтение и запись (по всем внешним признакам, в том числе и ZFS, которая не жаловалась на контрольные суммы), а вот уже нет никакого Crucial MX300 на SAS-порту.

Первое сообщение от ядра Linux об отказе IO-операций поступило в 20:31:34, а официально отсутствующим диск был объявлен в 20:32:15. Однако реально диск мог сразу перестать отвечать на запросы – мне не совсем понятны сообщения драйвера.

Что беспокоит меня больше всего по поводу этих резких отказов SSD – так это насколько они непонятны, и что я не могу сам себе объяснить, что именно пошло не так. Когда жёсткий диск крутится, он тоже может внезапно помереть, но, по крайней мере, можно составить объяснение того, что случилось перед этим – заклинило мотор, или случился другой физический отказ, приведший к резкому останову. SSD – твердотельные и таинственные, и у меня нет никаких объяснений тому, что пошло не так, особенно когда диск ещё молод и не должен был подходить к исчерпанию лимита жизни флэш-ячеек.

Когда HDD помирает в юном возрасте, можно представить, что у него не выявили проявившиеся в итоге дефекты производства. С SSD теоретически такого происходить не должно, поэтому его ранняя смерть особенно беспокоит. Возможно, во флэш-ячейках тоже могут быть необнаружимые дефекты изготовления.

А когда у меня нет объяснения происходящему, мои мысли начинают идти по пути беспокойства – типа того, что диск обманывал нас по поводу своего здоровья в SMART-диагностике, и что он на самом деле использовал последние запасные ячейки, а потом они закончились, или что у него была какая-то ошибка в прошивке, которую мы случайно затронули, после чего он превратился в кирпич.

У нас было такое, что SSD таким образом умер, а потом вернулся к жизни, когда его достали и снова воткнули – и на вид был совершенно здоровым, что совершенно не внушает доверия. Но это был другой тип SSD. А ещё мы получали странные ошибки от SSD серии Crucial MX500.

Кроме того, когда у меня нет объяснения отказам SSD, каждый из них кажется мне непредсказуемой миной замедленного действия. Здоровы ли они или помрут завтра? Кажется, что я должен полагаться на статистику, то есть, что не слишком многие из них умрут, и сделают это не слишком быстро, чтобы их можно было поменять. И даже эта надежда зиждется на предположении об отсутствии корреляции отказов – что произошедшее с этим SSD с малой вероятностью произойдёт с другими, стоящими рядом с ним.

И эта проблема актуальна не только для наших файловых серверов – у меня есть то же беспокойство, связанное с моим домашним компьютером. Все данные я зеркалю, но каковы реальные шансы отказа обоих SSD?

В теории я знаю, что SSD должны быть куда как более надёжными, чем вращающийся ржавый диск. Также у нас есть куча SSD, тихонько работающих уже много лет. Но после таких загадочных внезапных отказов они уже не кажутся такими надёжными. Я очень хотел бы, чтобы у нас было какое-то предупреждение по поводу отказа SSD, ведь с HD это довольно часто было возможно (к примеру, такие предупреждения по поводу HD в одном из рабочих настольных компьютеров мне поступали – хотя я их и игнорировал).
Источник: https://habr.com/post/434702/

Оригинал источника: https://utcc.utoronto.ca/~cks/space/blog/sysadmin/ThirdGenFi...