Substituindo Discos Rígidos [closed]

19

Eu queria saber se é uma boa idéia substituir um disco rígido em um servidor de banco de dados (bastante) crítico ao sistema após um certo número de anos de uso, antes que ele morra.

Por exemplo, eu estava pensando em substituir um disco rígido após 3 anos de uso. Como tenho muitos discos rígidos nos servidores, posso escalonar quais discos rígidos são substituídos.

Esta é uma boa ideia, ou as pessoas apenas aguardam o fracasso?

    
por Garfonzo 19.12.2011 / 20:19

3 respostas

33

O Google fez um estudo sobre drives de disco e encontrou pouca correlação entre a idade do disco e a falha. Os testes SMART também não mostram falhas.

Minhas observações locais (> 500 servidores) são semelhantes. Eu tenho novos discos falham rapidamente, enquanto os antigos ainda funcionam bem.

Minha regra geral é que, se vimos problemas de disco (erros SMART ou de sistema), substituímos imediatamente. Se não, então as unidades são desligadas quando o servidor faz.

Google Study link

    
por 19.12.2011 / 20:28
13

Não.

Um dos maiores problemas com a substituição de um disco rígido em um servidor de produção ativo é que isso irá disparar uma reconstrução. Especialmente se você estiver usando o RAID5 e, especialmente, se estiver usando discos grandes, forçar uma reconstrução cria um risco muito significativo de uma falha irrecuperável. O risco de perder a matriz durante uma reconstrução é muito maior do que o risco envolvido em deixar uma unidade de 3 anos de idade.

Tomando um exemplo extremo, se você substitui sucessivamente cada disco em um array RAID5 de 6 discos composto por discos de 2TB, seu risco teórico de um erro de leitura irrecuperável durante uma das reconstruções é de 58% (de acordo com o meu matemática guardanapo; por favor, faça o seu próprio e compare notas). Em outras palavras: sua substituição de disco "preventiva" é, na verdade, nada menos que um ato de sabotagem.

A única vez em que eu consideraria a atualização de unidades em um servidor antigo seria durante o processo de "recondicionamento", por exemplo, depois de ter sido descomissionado de uma tarefa e antes de voltar a funcionar com uma nova função. Mesmo nesse ponto, os requisitos de capacidade e desempenho seriam muito mais importantes do que a idade das unidades.

    
por 19.12.2011 / 20:29
3

Eu não vi isso. Mantemos os servidores sob garantia até que sejam retirados da produção - 5 anos. O padrão RAID 5 permite que você sobreviva a uma falha de disco, então apenas manteremos algumas unidades em mãos para que possamos iniciar uma reconstrução imediatamente e em servidores críticos, incluímos um ponto de acesso ou vá para o RAID 10.

Se você notou várias unidades com falha recentemente em um servidor, você pode ter um problema de backplane. Poderia ser nova vibração ou poeira também da construção próxima.

    
por 19.12.2011 / 20:23