Eu tenho uma máquina FreeBSD 8.x rodando o ZFS e com um controlador 3ware 9690SA.
O controlador 3ware mostra um ECC-ERROR com um dos discos:
//host> /c0 show
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 279.39 GB SAS 0 - SEAGATE ST3300657SS
p1 OK u0 279.39 GB SAS 1 - SEAGATE ST3300657SS
p2 OK u1 931.51 GB SAS 2 - SEAGATE ST31000640SS
p3 ECC-ERROR u2 931.51 GB SAS 3 - SEAGATE ST31000640SS
p4 OK u3 931.51 GB SAS 4 - SEAGATE ST31000640SS
/c0 show events
não apresenta erros de ECC em sua história recente.
O ZFS não detecta atualmente nenhum erro. zpool status
diz No known data errors
Minha pergunta: isso é ECC-ERROR
, algo que eu preciso me preocupar?
De acordo com o Manual do 3ware CLI 9.5.2 , um ECC-ERROR
significa que o controlador 3ware detectou um erro de leitura para um ou mais setores nesta unidade. Isso às vezes ocorre quando uma matriz RAID está se recuperando de um disco com falha. Eu acredito que ECC-ERRORS também podem ser detectados quando o 3ware Controller verifica cada disco. Nenhuma das unidades falhou e, portanto, não houve recriação da unidade, por isso suponho que a 3ware tenha descoberto um setor defeituoso quando executou a verificação semanal dos discos. Esta é uma suposição segura?
De acordo com nossos registros, o ZFS não detectou nenhum setor defeituoso nessa unidade. O ZFS pode contornar erros de leitura - se o ZFS detectar um setor defeituoso na unidade, ele simplesmente marcará esse setor como ruim e nunca mais o usará novamente. Do ponto de vista do ZFS, um setor ruim não é grande coisa, embora possa indicar que o disco está começando a ficar ruim.
Eu posso limpar os erros ECC-ERROR
usando tw_cli /c0 rescan
e de acordo com a página do manual tw_cli " Verificar novamente o controlador irá limpar o status do erro se a condição não existir mais ". E, como os erros de ECC ocorrem apenas às vezes quando determinados setores de disco são lidos, o ECC-ERROR
desaparece. Como o ZFS provavelmente transferiu esse setor inválido para outra região do disco e marcou o setor ruim como 'ruim', o setor defeituoso nunca será lido novamente.