2gusia (2gusia) wrote,
2gusia
2gusia

Categories:

Как на практике ведёт себя nas4free с битой памятью

Сегодня удалось позитивно завершить неочевидную дрянь с NAS у камрада sedmovetz
Это на выходе мы знаем, что дело в памяти, а начиналось так: (Прим исходная дискуссия в комментах здесь)

Анамнез
Из новых комплектующих был собран НАС: корпус - Fractal Design Node 304; MB - Gigabyte GA-H97N-WIFI; процессор - Celeron G1840 2.80GHz; RAM - Corsair DIMM DDR3 4096MBx2 1333MHz; БП - Hiper M/V 600W; ОС - SSD Sandisk X210 128GB; DATA - 3x4TB WD4000FYYZ RE).
Следуя руководству уважаемого хозяина блога на gpt-разделах на половинках трех дисков был собран raidz2 pool, на котором были созданы три датасета: один для хранения фотоархива, другой - для видеоархива, и еще один для текущего обмена файлами и их временного хранения в домашней локалке.
Пол года НАС изредка использовался только как расшаренная сетевая папка и нареканий не вызывал. Недели две назад была предпринята попытка сбросить на него весь домашний фото и видеоархив, для чего была выбрана программа GoodSync.
После запуска GoodSync в режиме одностороннего бэкапа через некоторое время стали появляться ошибки сетевого доступа, а потом и вовсе процесс остановился. Доступ к НАС через сетевой интерфейс сохранялся (можно было посмотреть логи, состояния и пр.), в проводнике НАС был виден, и даже можно было увидеть названия датасетов, но внутрь них он не пускал. Вэбинтерфейс тоже работал только до попытки запроса к нему, после чего наглухо зависал. Помогала только жесткая перезагрузка НАСа кнопкой.
После перезагрузки НАС опять работал как ни в чем не бывало. До очередного запуска GoodSync, после которого ситуация повторялась.


Диагностика
Изучаем - в системном логе проблем не видно, смарты у дисков приличные. Что, отмечу, кроме дисков резко снижает вероятность нехватки питания от БП. В этом случае диски отваливаются с руганью, примеры в блоге обсуждались.

Советую камраду прогнать длинный смарт тест - всё ОК, что не снимает, конечно, подозрение с дисков окончательно. Но сильно его уменьшает.

А вот zpool status выглядит неприятно

  pool: NASEL
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
	attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
	using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://illumos.org/msg/ZFS-8000-9P
  scan: scrub repaired 4.50M in 16h36m with 0 errors on Wed Aug 19 16:09:59 2015
config:

	NAME                    STATE     READ WRITE CKSUM
	NASEL                   ONLINE       0     0     0
	  raidz2-0              ONLINE       0     0     0
	    gpt/disk1WD89922p1  ONLINE       0     0     2
	    gpt/disk1WD89922p2  ONLINE       0     0     2
	    gpt/disk2WD84775p1  ONLINE       0     0     4
	    gpt/disk2WD84775p2  ONLINE       0     0     2
	    gpt/disk3WD2CPT4p1  ONLINE       0     0     3
	    gpt/disk3WD2CPT4p2  ONLINE       0     0     1

errors: No known data errors


Видны ошибки чексумм, разбросанные +- равномерно по всем дискам. Пул пока держит инфу - но что-то её корёжит. Естественное подозрение - на память, прошу погонять мемтест, несмотря на уверенность камрада в качестве свежекупленной памяти.

Результат:

Вот оно! Спасибо вам, дорогой товарищ!
Memtest выдал более тысячи ошибок памяти (кто бы мог подумать!). "Старые" планки были с позором сданы в сервис на посмертную диагностику, а НАС получил свеженькие после теперь уже предварительного прогона Memtest-ом (0 ошибок). Вот уже двое суток полет нормальный.


Эпикриз
Странные глюки объяснялись битой памятью. Хочу акцентировать, что несмотря на тысячи(!) ошибок в мемтесте и эксплуатации на протяжении полугода, ZFS не допустил искажения информации в массиве. Это соответсвует моим более ранним мыслям о необходимости ECC памяти дома. Она, конечно, много лучше. Но первую волну ошибок ZFS удаётся отфильтровать. Да, надеяться, что именно вам повезёт и всё отфильтрует - не стоит. Но если следить за статусом пула, есть хорошие шансы инфу сохранить.

А вот в production ECC память обязательна. Особенно, если это не третий бекап, а интенсивная по памяти загрузка, как пример - базы данных.
Tags: nas, nas4free, zfs, железо, разбор полётов
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 22 comments