Manutenção preventiva do disco rígido

2

Eu tenho alguns servidores (HP ProLiant DL380, DL360 e DL120), que são configurados com hot spares, bem como algumas estações de trabalho comuns com alguns discos externos.

Eu quero criar rotinas de manutenção preventiva para esses sistemas e queria saber qual manutenção seria recomendável.

  1. Para os servidores com as hot spares, é suficiente substituir o disco rígido em caso de falha?

  2. Para estações de trabalho e discos externos regulares, há alguma verificação que eu possa fazer para verificar o status dos discos rígidos, ou possivelmente algum intervalo no qual eu queira substituir os discos rígidos de qualquer maneira? Ou é simplesmente a recuperação do backup após a falha que é feita?

por tor 16.08.2012 / 13:16

2 respostas

1

Eu gerenciei milhares de servidores HP Prolient com várias configurações de RAID em um grande datacenter (64.000 pés quadrados). Normalmente, há duas situações em que eu substituo as unidades, em caso de falha ou com falha de previsão. No entanto, o último IMHO é muito como "em algum momento no futuro esta unidade vai falhar." Ouvi dizer que tem algo a ver com comunicação ou problemas de monitoramento com a HP.

Sugiro que você sempre substitua um disco se ele falhar mesmo que o servidor tenha um hot spare. Eu odeio usar essa frase, mas acho que a lei de Murphy. No entanto, algumas coisas vêm à mente.

  1. Nível de suporte com a HP. Você tem um contrato de suporte com eles?
  2. Qual é a importância da caixa?
  3. Acessibilidade técnica de campo. Um CE pode chegar lá rapidamente?
  4. Disponibilidade de peças da HP.
  5. Uma questão bastante importante é o orçamento do departamento. Você pode substituí-los?

Mais uma vez, estas são apenas algumas das coisas que lhe vêm à mente.

Quanto a medidas preventivas, um bom ambiente limpo com temperatura e umidade dentro da ASHRAE ( um post rápido aqui ) ou fabricar especificações é sobre o melhor que você pode fazer. Além disso, um bom monitoramento ajuda muito a detectar esses problemas, pois eles minimizam o tempo de inatividade. Você pode dar uma olhada em Hp Insight . Pessoalmente, eu fico longe dos agentes hp e monitore rigorosamente os servidores de sua interface integrada (iLo) com ajuda de HP SIM e um sistema de bilhetagem interno.

Quanto às estações de trabalho, as opções acima ainda podem ser aplicadas. Você nunca deve estar em uma situação em que você precise se recuperar do backup. E simplesmente substituir discos para substituí-los não é uma maneira de executar um servidor / estação de trabalho. Então, novamente, eu não gerencio estações de trabalho, então algumas delas podem ser exageradas.

    
por 16.08.2012 / 13:54
1

For the servers with the hot spares, is it sufficient to replace the hard drive upon failure?

Então, esses são provavelmente o mesmo modelo de disco, talvez até do mesmo lote de fabricação. Quão confiante você está de que cada um falhará em momentos diferentes? OK, um disco em espera deve ter uma carga de trabalho muito diferente que ajudará a escalonar suas falhas em relação aos discos que contêm dados reais - que obviamente devem estar em uma matriz RAID - mas sua matriz RAID suporta falha de mais de um disco?

i.e. você tem monitoramento e alerta no local para detectar um disco com falha, mesmo quando o sistema de arquivos ainda está disponível?

Você pode monitorar de forma proativa a integridade do disco capturando alertas SMART, mas não informa qual sistema operacional está sendo executado neles. A execução de varreduras de superfície periódicas também é uma boa ideia (a frequência depende de quão críticos os dados são e de quanto impacto haveria de uma perda de dados - mas não mais de uma vez por mês). Deve ser possível trocar o disco do conjunto RAID e reintegrá-lo sem tempo de inatividade. De fato, se você fizer certo, não haverá impacto no desempenho.

    
por 16.08.2012 / 13:24

Tags