RaidZで構築したファイルサーバーが故障したけど復旧できた話2

書くネタができました(嬉しくない
前回 新しいマザーボードと交換して安定稼働し始めたと思ったファイルサーバーがまた壊れました。
今度はHDDが壊れたようです。

状態としては

  • ファイルサーバーに置いていた曲データをiTunesで再生していたら、次の曲の再生に時間がかかる。
  • 時間がかかっている間、HDDから異音がする。
  • 異音がしている間、ファイルサーバーのコンソールに「SError: { PHYRdyChg 10B8B DevExch }」とかログがいっぱい出てくる。
  • ファイルサーバーにログインしてRaidZの状態を確認すると以下の状態。
# zpool status
   pool: zfs-pool1
  state: DEGRADED
 status: One or more devices has experienced an error resulting in data
         corruption. Applications may be affected.
 action: Restore the file in question if possible. Otherwise restore the
	 entire pool from backup.
   see: http://zfsonlinux.org/msg/ZFS-8000-8A
  scan: resilvered 192K in 0h0m with 0 errors on Thu Nov 23 12:01:21 2017
 config:

        NAME                                 STATE     READ WRITE CHSUM
	zfs-pool1                            DEGRADED     5     0    40
	  raidz1-0                           DEGRADED     5     0    77
	    ata-ST2000DM001-XXXXXX_XXXXXXXX  ONLINE       0     0     0
	    ata-ST2000DM001-XXXXXX_XXXXXXXX  ONLINE       0     0     0
	    ata-ST2000DM001-XXXXXX_XXXXXXXX  ONLINE       5     0     0
	    ata-ST2000DM001-XXXXXX_XXXXXXXX  REMOVED      0     0     0

1台HDDがいなくなっているようですね。

# zpool status -v

ってやるとエラーの詳細が出るのでやってみると、
いくつかのmp3ファイルとMacのTime Machine用にAFPで共有してたファイルが出てきました。
とりあえずmp3だけバックアップ取ったところで完全にファイルにアクセスできなくなった。
なんのためのRaidだよって焦ったけど、再起動したら普通にファイルまた見れた。
あれ?直った?と思ったけど少ししたらまた最初の現象が発生し始めた。

ちなみにimportした時はこんなメッセージも出た。

# zpool import
   pool: zfs-pool1
     id: 8492513898849136445
  state: DEGRADED
 status: One or more devices are faulted.
 action: The pool can be imported despite missing or damaged devices. The
         fault tolerance of the pool may be compromised if imported.
 config:

	zfs-pool1                            DEGRADED
	  raidz1-0                           DEGRADED
	    ata-ST2000DM001-XXXXXX_XXXXXXXX  ONLINE
	    ata-ST2000DM001-XXXXXX_XXXXXXXX  ONLINE
	    ata-ST2000DM001-XXXXXX_XXXXXXXX  ONLINE
	    ata-ST2000DM001-XXXXXX_XXXXXXXX  FAULTED   too many errors

あとメモし忘れましたが、fdiskした時も1台エラーが表示されてました。

まぁとにかく、さっさとHDD交換するべきかなと後日HDDを購入。

ST2000DM006.jpg

もともとSeagateのST2000DM001で組んでたので
SeagateのST2000DM006を購入。これが一番安かったですし。

そしてHDD入れ替えて他のサイトを参考にリビルドしたんですが、
なぜかリビルドが終わってもDEGRADEDのまま。
ファイル共有は問題なし。
fdiskでもエラーはなし。
zpool statusでみるとmp3のエラーは消えたんですが、
相変わらずAFP内のファイルはエラーが出続けている状態です。

なんかTime Machineのバックアップファイルが悪さしているようですね。
この状態でHDDがもう1台壊れたらどうなるかわからないので、
RaidZを組み直すことにしました。

長くなってきたので組み直すのは次回にします。