Monitorando falha de unidade de invasão súbita

1

Uma das unidades em um array RAID-1 de software de 2 discos em um servidor dedicado rodando o CentOS falhou repentinamente neste fim de semana e derrubou todo o servidor. Embora eu não tenha tido tempo de revisar os registros e monitorar completamente, parece que não houve aviso (embora eu não estivesse monitorando especificamente a invasão). Desde que sou novo no RAID e tenho algumas perguntas sobre o fracasso:

  1. Uma falha no disco em um RAID normalmente desativa o servidor? Meu entendimento era que o RAID era especificamente para evitar isso.
  2. Ao olhar para os logs existe algum log ou coisa em particular que eu deveria procurar como uma causa ou precursor?
  3. Como devo monitorar meu RAID no futuro? Está vendo /proc/mdstat suficiente?
por uesp 07.11.2011 / 15:06

1 resposta

2

Normalmente, uma falha de disco não reduz o sistema. Eu tive algumas falhas de disco e acabei de receber um email que o disco falhou, a matriz está marcada como degradada e eu deveria mudar a unidade.

Eu procuraria / var / log / messages, pois é onde normalmente esse tipo de coisa acontece. Se você deseja ser notificado com antecedência, deve ter as ferramentas inteligentes instaladas. Eles lhe enviarão e-mail se algo provavelmente falhar.

Eu verificaria o / proc / mdstat, configuraria o alerta de email e usaria o smart para monitorar as unidades. Em seguida, você também pode configurar testes de unidade semanais usando smart.

    
por 07.11.2011 / 16:27

Tags