2gusia (2gusia) wrote,
2gusia
2gusia

Categories:

О влиянии условий окружающей среды на надежность HDD

Всем известное исследование Google, давшее оптимальную температуру жёстких дисков в 35-45С всем хорошо, да только оно 2007 г. С тех пор много чего изменилось. Поэтому листая материалы 14th USENIX Conference on File and Storage Technologies, Santa Clara, CA, USA, February 22–25, 2016, я заинтересовался не широко обсуждаемой статьёй про SSD, а соседней, на 53 странице

Environmental Conditions and Disk Reliability in Free-cooled Datacenters
Условия окружающей среды и надежность дисков в свободно-охлаждаемых ЦОД
Ioannis Manousakis, Rutgers University; Sriram Sankar, GoDaddy; Gregg McKnight, Microsoft; Thu D. Nguyen, Rutgers University; Ricardo Bianchini, Microsoft

То есть статья не совсем о том, что бы мне хотелось. Авторов интересует экономика крупных (hyperscale в оригинале) ЦОД. И в особенности насчёт их охлаждения наружным воздухом. Но нам, владельцам нескольких жёстких дисков, тоже есть что почерпнуть.

TL;DR

  • AFR* HDD корпоративного класса в лучших ЦОД соответствует APR приличных дисков пользовательского класса в статистике backblaze. А в ЦОД, где условия менее жёсткие - оказывается хуже в разы. Так что чем-чем корпоративные диски с конским ценником лучше, так точно не надёжностью, ср. также

  • Высокая влажность легко может утроить темп выхода жёстких дисков из строя.

  • относительная влажность обдувающего воздуха гораздо вреднее для HDD, чем его температура. Пример - 19.9С и 41.4% - плохо. А 42С и 13% - хорошо (в приведённом примере абсолютная влажность одинакова, просто воздух нагрели). Более того, даже 54.4С и 27% не так плохо. А тот же воздух, но градусов на 20 холоднее - хуже.

  • На диски, память, процессоры и блоки питания пришлось 83%, 10%, 5%, и 2% от числа отказов. Ломается всё, но на диски в условиях ЦОД приходится львиная доля отказов.

/TL;DR

*AFR - показатель надёжности. Сколько % изделий выйдет из строя за год. Кстати, может быть и больше 100%. Если дохнут, не прожив и года.

Теперь подробно. В статье авторы определяют как "свободно-охлаждаемые" ЦОД, использующие наружный воздух для охлаждения. И отмечают, что это очень передовая практике, позволяющая экономить много энергии. При этом, однако, оборудование зачастую эксплуатируется при более высоких температуре и влажности. Что может отрицательно сказаться на надёжности оборудования и съесть экономию на электричестве. Вот практическое исследование этого влияния и стало предметом статьи. От себя повторю, что и тема важная и и нам, простым смертным с несколькими дисками интересная.

Статистику собирали течение срока от 1.5 до 4 последних лет в 9 крупных ЦОД Microsoft по всему миру с более чем 1.07 млн жёстких дисков в сумме. Исследовалось влияние температуры и влажности, а также и их вариаций, на надёжность серверного железа. На секундочку - что было понятно, что есть ЦОД у Microsoft.


Microsoft Data Center - San Antonio

Где конкретно те ЦОД расположены - не сообщается, но и так ясно - в США, Западной Европе и Юго-Восточной Азии



Статистика показала, что на диски приходится львиная доля отказов оборудования.



Например, в ЦОД HH1 на диски, память, процессоры и блоки питания пришлось 83%, 10%, 5%, и 2% от числа отказов. Так что авторы статьи сосредоточились на дисках. А нам такое распределение интересно. 10% на память - тоже немало. Но в ЦОД она ECC. А мы, дома, зачастую сбои и не замечаем...

Анонимизированные характеристики подопытных ЦОД


Что значат буковки: С (cool) - холодный, D (dry) - сухой. Первое H (hot) - горячий - внутренняя температура как минимум 10% времени на протяжении года выше 20С. Второе H (humid) - влажный. Внутренняя относительная влажность воздуха как минимум 10% времени на протяжении года выше 60%.
Months - сколько месяцев собирали статистику. Refresh cycles - циклы замены оборудования, раз в три года. То есть всё железо новое, не более 3 лет в эксплуатации.

Вот, собственно, цифирь по AFR дисков. Видно, что замена C на H, то есть переход от "холодных" к "горячим" в терминах статьи ЦОД не ведёт у значительному росту AFR. Независимо от типа охлаждения. А вот с влажностью - совсем наоборот, AFR дисков подскакивает в разы.



Теперь IMHO самое удивительное. На рис 8 представлены три варианта расположения дисков в сервере. И все три реально представлены в исследованных ЦОД.
Желто-зелёная полоса - относительная влажность. Сине-красная - температура.

А теперь вопрос на засыпку - какой из вариантов a, b или c даст реже выходящие из строя диски?

...думаем...

Не угадали! Лучше всего получается в варианте (b), диски в горячем воздухе. О-о...
В ЦОД CD3 воздух на входе 19.9С и 41.4% влажности. Исследованные серверы построены по варианту (b). Когда воздух доходит до дисков, он нагрет до 42С, зато влажность составляет 13%. Авторы указывают, что это - одна из причин, по которой ЦОД CD3 характеризуется столь низким AFR в 1.8%

А в ЦОД HH1 сервера построены по варианту (а). AFR, как мы видели - 3.1%. Авторы пишут, что если переставить диски назад, в вариант (b), то воздух на дисках будет иметь температуру 54.4С и влажность 27%. Диски, думаю, будут ещё горячее - но авторы утверждают, что их модель обещает увеличение надёжности - с AFR 3.1% до 2.7%. Давайте прикинем. Если воздух на входе в сервер был 35С, то при неизменной абсолютной влажности (на наших исходных 27 грамм на кубометр) это даёт относительную 67%. И это - хуже, чем 54С...

Приведу также выводы, сделанные авторами (свои изложил выше)

  • ЦOД с сухим воздухом демонстрируют наилучшие величины AFR дисков.

  • высокая влажность увеличивает AFR от 2 до 3.6 раз.

  • "высокая" температура воздуха не коррелирует с величиной AFR (мы помним - высокая - это более 10% времени превышающая 20С)

  • высокая влажность увеличивает число проблем с контактами, вероятно из-за эффекта коррозии

  • пик проблем приходится на второе лето эксплуатации, что авторы также связывают с эффектами коррозии

  • относительная влажность имеет самое сильное влияние на время жизни дисков из всех оцененных факторов

  • температура влияет значительно меньше, хотя и оказывает влияние

  • данные не показывают влияния вариаций температуры и влажности на время жизни дисков


Не вполне ожидаемо, для меня по крайней мере... Не так и страшна дискам температура. И на 50+ массового падежа не наблюдается. В отличие от условий высокой влажности. Так что IMHO старые выводы Google остаются актуальны. И я свои диски продолжу держать в диапазоне 35-45С
Tags: backblaze, microsoft, железо
Subscribe

  • Статья про SSD Apacer в NAS

    Сегодня после длительной борьбы с web-редактором IXBT Live (который оказался не совместимым с Google Docs), наконец, опубликовали мой опус про SSD,…

  • OpenZFS и XigmaNAS

    Месяц назад я писал про Open ZFS. Там были мысли о том, когда он будет доступен в XogmaNAS. А в конце декабря зацепился на эту тему языками с…

  • Как провожают жесткие диски

    Сдох у меня жесткий диск в NAS Как видно - из SMART отпахал 70428 часов, то есть если 24/7 - больше 8 лет. И, я вам скажу, он не просто крутился…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 11 comments

  • Статья про SSD Apacer в NAS

    Сегодня после длительной борьбы с web-редактором IXBT Live (который оказался не совместимым с Google Docs), наконец, опубликовали мой опус про SSD,…

  • OpenZFS и XigmaNAS

    Месяц назад я писал про Open ZFS. Там были мысли о том, когда он будет доступен в XogmaNAS. А в конце декабря зацепился на эту тему языками с…

  • Как провожают жесткие диски

    Сдох у меня жесткий диск в NAS Как видно - из SMART отпахал 70428 часов, то есть если 24/7 - больше 8 лет. И, я вам скажу, он не просто крутился…