2gusia (2gusia) wrote,
2gusia
2gusia

Category:

Множественные ошибки на zfs пуле - причина

Это вторая часть, описание проблемы см здесь.

Сразу скажу, что в этом конкретном случае проблема оказалась в памяти. Причём не вполне очевидная и не дорогая по расходам проблема - окислились контакты, сами чипы в норме.

Я написал: "Очень советую ничего никуда не писать и начать с проверки памяти."

Ответ камрада, столкнувшегося с проблемой:
"В первых строках мемтеста куча error-bits.(...) запустил его, увидел толстую красную линию и ушёл на работу. Вернувшись застиг ту же картинку, нажал Esc. Вытащил три планки, и выяснил что с оставшейся в слоте 0 все хорошо.

И так меняя в слоте 0 все планки, установил что вся память хороша. После чего поставил их все, предварительно потерев ластиком на счастье. И счастье состоялось, вся память заработала. Чтение с диска файлов, указанных как сбойные в статусе пула - без проблем."


Почему именно на дефектную память очень похоже? (Но в причины могли быть и другие).
- ошибки равномерно распределены по всем дискам. Так что это что-то общее для всех дисков - то есть не сами диски и не SATA шнурки. Которые шнурки обычно - первые подозреваемые.

- про плохое питание сложнее. С одной стороны, оно одинаково влияет на все диски. Но с другой, если диски разных моделей, они по разному реагируют на это влияние. В нашем случае не было известно, разных ли моделей диски. Так что нехватка питания остаётся следующим кандидатом. Впрочем, в этом случае обычно (но НЕ всегда!) лезут ошибки SMART

- в пользу гипотезы о проблеме с памятью говорит отсутствие видимых проблем в SMART (но это только аргумент, не окончательный приговор)

- важная примета о проблеме с памятью - многократные перезагрузки системы без видимой причины. FreeBSD - стабильная система. Аптайм в норме составляет хоть годы - пока не выключишь для обслуживания железа. Несколько перезагрузок в сутки - явная аномалия.

Про недостаток свободного места на пуле как причину подобных проблем - не могу согласиться. ZFS пул даже при 100% заполнении не разваливается и данные не теряются. Хотя уже при 95% заполнении резко падают скорости, а если умудриться заполнить на все 100% - то не так просто и стереть что-то, хотя можно умеючи.

Итого, камрады, которые верно определили проблему в хронологическом порядке
iva2019
nepilsonis
sekundator
koolru
SlideR
alex_shine


PS А заодно мы поимели ещё один замечательный пример уровня устойчивости ZFS к битой памяти. На трёх дисках raidz - 3.3K ошибок. При этом битых - два элемента, остальные - восстановлены. IMHO - потрясающий результат.

PPS И не могу не процитировать гуру Alexey Kruglov с его хорошим советом, в полезности которого он сам только что имел повод  убедиться ;)
2. УПС.
3. УПС, еще раз .
4. (...) Пока делается (...) вспоминаем дорогу в магазин упсов

Tags: nas, nas4free, zfs, железо, разбор полётов
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 15 comments