Um “ECC-ERROR” de 3ware é importante em um JBOD quando eu tenho o ZFS?

1

Eu tenho uma máquina FreeBSD 8.x rodando o ZFS e com um controlador 3ware 9690SA.

O controlador 3ware mostra um ECC-ERROR com um dos discos:

//host> /c0 show
VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   279.39 GB SAS   0   -            SEAGATE ST3300657SS 
p1    OK             u0   279.39 GB SAS   1   -            SEAGATE ST3300657SS 
p2    OK             u1   931.51 GB SAS   2   -            SEAGATE ST31000640SS
p3    ECC-ERROR      u2   931.51 GB SAS   3   -            SEAGATE ST31000640SS
p4    OK             u3   931.51 GB SAS   4   -            SEAGATE ST31000640SS

/c0 show events não apresenta erros de ECC em sua história recente.

O ZFS não detecta atualmente nenhum erro. zpool status diz No known data errors

Minha pergunta: isso é ECC-ERROR , algo que eu preciso me preocupar?

De acordo com o Manual do 3ware CLI 9.5.2 , um ECC-ERROR significa que o controlador 3ware detectou um erro de leitura para um ou mais setores nesta unidade. Isso às vezes ocorre quando uma matriz RAID está se recuperando de um disco com falha. Eu acredito que ECC-ERRORS também podem ser detectados quando o 3ware Controller verifica cada disco. Nenhuma das unidades falhou e, portanto, não houve recriação da unidade, por isso suponho que a 3ware tenha descoberto um setor defeituoso quando executou a verificação semanal dos discos. Esta é uma suposição segura?

De acordo com nossos registros, o ZFS não detectou nenhum setor defeituoso nessa unidade. O ZFS pode contornar erros de leitura - se o ZFS detectar um setor defeituoso na unidade, ele simplesmente marcará esse setor como ruim e nunca mais o usará novamente. Do ponto de vista do ZFS, um setor ruim não é grande coisa, embora possa indicar que o disco está começando a ficar ruim.

Eu posso limpar os erros ECC-ERROR usando tw_cli /c0 rescan e de acordo com a página do manual tw_cli " Verificar novamente o controlador irá limpar o status do erro se a condição não existir mais ". E, como os erros de ECC ocorrem apenas às vezes quando determinados setores de disco são lidos, o ECC-ERROR desaparece. Como o ZFS provavelmente transferiu esse setor inválido para outra região do disco e marcou o setor ruim como 'ruim', o setor defeituoso nunca será lido novamente.

    
por Stefan Lasiewski 27.06.2013 / 01:27

1 resposta

1

De acordo com os documentos , no caso de um único disco , isso significa que você pode ter dados corrompidos ou talvez não. O ZFS salva somas de verificação de objetos e, portanto, a verificação de integridade de dados é possível . Certifique-se de ter verificações de integridade programadas e RAID.

    
por 27.06.2013 / 23:20