Mensagens relacionadas a HD preocupantes após falta de energia

2

Tive uma queda de energia há duas semanas no meu servidor BSD que a minha UPS decidiu que era um bom momento para falhar. Acabei de disparar esta noite apenas para mostrar os seguintes erros durante o que eu presumo ser o processo de reconstrução.

A porta do erro ECC apareceu como 2 ou 1 nos erros a seguir e, embora o restante dos dados exibidos na imagem não tenha aparecido desde que foi iniciada a reconstrução, o erro ECC da unidade foi estourou uma vez duas vezes desde que o comando foi exibido.

Enquanto eu tenho outro sistema para fazer backup de dados críticos também, minhas perguntas realmente são o que isso está dizendo, e eu deveria estar comprando hardware. As unidades são WD 250GB em um RAID5 de hardware com uma placa RAID de 4 portas 3G 3Ware 9650SE-4LPML. O sistema operacional é o FreeBSD 6.2

EDIT: Algo diferente agora. Caiu com um erro que tentativas foram esgotadas, e produziu a seguinte linha

g_vfs_dome():da0s1d[READ(offset=1155956736, length=16384)]error = 5

Em seguida, redefine o controlador e inicia uma reconstrução na unidade -

    
por canadiancreed 11.10.2011 / 00:41

1 resposta

1

O que você deve fazer aqui é disparar um autoteste SMART na (s) unidade (s) incorreta (s). Isso tirará muitas das partes do controlador / placa-mãe e dará uma leitura melhor sobre os discos subjacentes com problemas. É possível que uma falha sem unidade dê resultados errados lá - a falha na fonte de alimentação é a causa mais comum - mas é um bom começo. Levará algumas horas para executar um teste estendido, mas você pode obter informações úteis o suficiente com o curto. Drives que estão falhando tendem a reclamar muito rápido mesmo naquele.

O guia em Utilização de SMART para monitorar unidades no 3ware RAID deve fornecer informações suficientes para disparar um autoteste e visualizar os resultados registrados. Provavelmente vale a pena verificar os registros da placa controladora para obter mais informações aqui antes mesmo de executar um novo teste. Seria interessante saber se os erros já estavam aumentando antes da queda de energia ou não. Às vezes, as matrizes RAID podem ter inconsistências ocultas que você simplesmente não conhece. Não é impossível que o corte de energia tenha danificado um setor por meio de gravações inconsistentes e, em seguida, os problemas que você não conhece fazem com que a reconstrução seja mal executada. Se houver reparos do setor mais antigos, você poderá encontrá-los nos logs do controlador, mesmo que o controlador os tenha corrigido tranquilamente e não tenha informado ao driver do Linux.

    
por 11.10.2011 / 13:08