Environmental Conditions and Disk Reliability in Free-cooled Datacenters
Условия окружающей среды и надежность дисков в свободно-охлаждаемых ЦОД
Ioannis Manousakis, Rutgers University; Sriram Sankar, GoDaddy; Gregg McKnight, Microsoft; Thu D. Nguyen, Rutgers University; Ricardo Bianchini, Microsoft
То есть статья не совсем о том, что бы мне хотелось. Авторов интересует экономика крупных (hyperscale в оригинале) ЦОД. И в особенности насчёт их охлаждения наружным воздухом. Но нам, владельцам нескольких жёстких дисков, тоже есть что почерпнуть.
TL;DR
- AFR* HDD корпоративного класса в лучших ЦОД соответствует APR приличных дисков пользовательского класса в статистике backblaze. А в ЦОД, где условия менее жёсткие - оказывается хуже в разы. Так что чем-чем корпоративные диски с конским ценником лучше, так точно не надёжностью, ср. также
- Высокая влажность легко может утроить темп выхода жёстких дисков из строя.
- относительная влажность обдувающего воздуха гораздо вреднее для HDD, чем его температура. Пример - 19.9С и 41.4% - плохо. А 42С и 13% - хорошо (в приведённом примере абсолютная влажность одинакова, просто воздух нагрели). Более того, даже 54.4С и 27% не так плохо. А тот же воздух, но градусов на 20 холоднее - хуже.
- На диски, память, процессоры и блоки питания пришлось 83%, 10%, 5%, и 2% от числа отказов. Ломается всё, но на диски в условиях ЦОД приходится львиная доля отказов.
*AFR - показатель надёжности. Сколько % изделий выйдет из строя за год. Кстати, может быть и больше 100%. Если дохнут, не прожив и года.
Теперь подробно. В статье авторы определяют как "свободно-охлаждаемые" ЦОД, использующие наружный воздух для охлаждения. И отмечают, что это очень передовая практике, позволяющая экономить много энергии. При этом, однако, оборудование зачастую эксплуатируется при более высоких температуре и влажности. Что может отрицательно сказаться на надёжности оборудования и съесть экономию на электричестве. Вот практическое исследование этого влияния и стало предметом статьи. От себя повторю, что и тема важная и и нам, простым смертным с несколькими дисками интересная.
Статистику собирали течение срока от 1.5 до 4 последних лет в 9 крупных ЦОД Microsoft по всему миру с более чем 1.07 млн жёстких дисков в сумме. Исследовалось влияние температуры и влажности, а также и их вариаций, на надёжность серверного железа. На секундочку - что было понятно, что есть ЦОД у Microsoft.
Microsoft Data Center - San Antonio
Где конкретно те ЦОД расположены - не сообщается, но и так ясно - в США, Западной Европе и Юго-Восточной Азии
Статистика показала, что на диски приходится львиная доля отказов оборудования.
Например, в ЦОД HH1 на диски, память, процессоры и блоки питания пришлось 83%, 10%, 5%, и 2% от числа отказов. Так что авторы статьи сосредоточились на дисках. А нам такое распределение интересно. 10% на память - тоже немало. Но в ЦОД она ECC. А мы, дома, зачастую сбои и не замечаем...
Анонимизированные характеристики подопытных ЦОД
Что значат буковки: С (cool) - холодный, D (dry) - сухой. Первое H (hot) - горячий - внутренняя температура как минимум 10% времени на протяжении года выше 20С. Второе H (humid) - влажный. Внутренняя относительная влажность воздуха как минимум 10% времени на протяжении года выше 60%.
Months - сколько месяцев собирали статистику. Refresh cycles - циклы замены оборудования, раз в три года. То есть всё железо новое, не более 3 лет в эксплуатации.
Вот, собственно, цифирь по AFR дисков. Видно, что замена C на H, то есть переход от "холодных" к "горячим" в терминах статьи ЦОД не ведёт у значительному росту AFR. Независимо от типа охлаждения. А вот с влажностью - совсем наоборот, AFR дисков подскакивает в разы.
Теперь IMHO самое удивительное. На рис 8 представлены три варианта расположения дисков в сервере. И все три реально представлены в исследованных ЦОД.
Желто-зелёная полоса - относительная влажность. Сине-красная - температура.
А теперь вопрос на засыпку - какой из вариантов a, b или c даст реже выходящие из строя диски?
...думаем...
Не угадали! Лучше всего получается в варианте (b), диски в горячем воздухе. О-о...
В ЦОД CD3 воздух на входе 19.9С и 41.4% влажности. Исследованные серверы построены по варианту (b). Когда воздух доходит до дисков, он нагрет до 42С, зато влажность составляет 13%. Авторы указывают, что это - одна из причин, по которой ЦОД CD3 характеризуется столь низким AFR в 1.8%
А в ЦОД HH1 сервера построены по варианту (а). AFR, как мы видели - 3.1%. Авторы пишут, что если переставить диски назад, в вариант (b), то воздух на дисках будет иметь температуру 54.4С и влажность 27%. Диски, думаю, будут ещё горячее - но авторы утверждают, что их модель обещает увеличение надёжности - с AFR 3.1% до 2.7%. Давайте прикинем. Если воздух на входе в сервер был 35С, то при неизменной абсолютной влажности (на наших исходных 27 грамм на кубометр) это даёт относительную 67%. И это - хуже, чем 54С...
Приведу также выводы, сделанные авторами (свои изложил выше)
- ЦOД с сухим воздухом демонстрируют наилучшие величины AFR дисков.
- высокая влажность увеличивает AFR от 2 до 3.6 раз.
- "высокая" температура воздуха не коррелирует с величиной AFR (мы помним - высокая - это более 10% времени превышающая 20С)
- высокая влажность увеличивает число проблем с контактами, вероятно из-за эффекта коррозии
- пик проблем приходится на второе лето эксплуатации, что авторы также связывают с эффектами коррозии
- относительная влажность имеет самое сильное влияние на время жизни дисков из всех оцененных факторов
- температура влияет значительно меньше, хотя и оказывает влияние
- данные не показывают влияния вариаций температуры и влажности на время жизни дисков
Не вполне ожидаемо, для меня по крайней мере... Не так и страшна дискам температура. И на 50+ массового падежа не наблюдается. В отличие от условий высокой влажности. Так что IMHO старые выводы Google остаются актуальны. И я свои диски продолжу держать в диапазоне 35-45С