Existe uma razão para alterar o disco rígido de um servidor antes que ele falhe?

11

Apenas uma pergunta rápida: há uma razão para mudar o disco rígido de um servidor depois de x anos antes de ele falhar (eventualmente, em algum momento) ou devo simplesmente deixá-lo até que ele falhe? Eu tenho pouca experiência com a administração real do servidor, então eu me pergunto ...

    
por Spiros 21.05.2010 / 14:21

10 respostas

8

Um ótimo motivo para alterá-lo é se você quiser adicionar outra tarefa à sua lista de tarefas, aumentando as chances de algo dar errado.

Brincadeira à parte, não há motivo algum pelo qual eu tenha ouvido falar para mudar a unidade antes do tempo. Se você tem RAID no lugar, você já tem proteção no lugar (supondo que você tem backups decentes), e você não está gerando resíduos na forma de uma unidade de mortos para alienar e você não tem que trabalhar desnecessariamente na eliminação dados confidenciais da unidade. Você não vai gastar dinheiro extra em novas unidades e você ainda não será de forma proativa contra as coisas que ainda poderia dar errado de qualquer maneira, como um controlador de unidade defeituosa, o que não é comum como fonte de falhas do conversor, mas pode acontecer.

Por outro lado, isso pode ajudá-lo a descobrir os erros da unidade irrecuperáveis que não estão acionando os alarmes na unidade RAID, como tivemos acontecer com o RAID 5. Nós mordido por este e acabou precisando de reconstruir a partir bare metal a partir do backup (assim mesmo nesse caso, uma cópia de segurança adequada irá ajudá-lo a se recuperar.) um nível de RAID que leva em consideração de capacidades de disco maiores e tolerâncias erro irrecuperável teria nos ajudado, hoje, se não, backups salvar o dia.

A maioria dos administradores tem um plano de backup e RAID decente, portanto não há necessidade real de gerar lixo extra substituindo as unidades desnecessariamente.

    
por 21.05.2010 / 14:35
5

Eu sou todo proativo, mas nunca fiz isso e nunca ouvi falar de ninguém fazendo isso. Presumivelmente, você tem algum tipo de configuração de RAID e backups válidos que ocorrem regularmente para o (s) sistema (s) em questão.

    
por 21.05.2010 / 14:25
5

A única vez que eu considero isso é que, se eu tivesse um monte de discos do mesmo lote, e outros no lote tivessem começado a falhar, então eu poderia considerá-lo.

Se eu estivesse apertado no espaço, então com certeza, eu faria isso - mas não por outro motivo do que apenas porque está ficando velho? Não, porque, em média, a taxa de falha no primeiro ano é semelhante à taxa de falha de qualquer outro ano . (note que o gráfico abre o primeiro ano ao longo de 3 meses, 6 meses, 1 ano, mas você teria que adicioná-los todos juntos para ter a chance de falha em 1 ano). E quando se olha para a alta utilização do disco, é mais provável que falhe no primeiro ano do que nos próximos três anos combinados.

A única correlação com a falha da unidade atrasada foi em salas mais quentes, e mantemos nossas salas de servidores legais.

    
por 21.05.2010 / 15:06
4

Sim, desempenho e capacidade. Se o disco rígido antigo tiver leituras sustentadas de 70MB / s e 100 IOPS e o substituto potencial tiver leituras sustentadas de 200MB / s e 175 IOPS e também tiver 3 vezes a capacidade, você poderá comprar novos drives e trocar por novos por simples razões de desempenho / capacidade. (e esses números são totalmente inventados, o ponto é mais novo e pode ser significativamente mais rápido).

Agora, o que você faz com as unidades antigas? Você pode usá-los em um servidor de teste ou adicioná-los a um backup em disco ou mantê-los como sobressalentes de emergência. Ou você pode simplesmente limpá-los e enviá-los para eliminação.

Seu servidor médio hoje em dia é IO ligado mais do que o limite do processador (ou pelo menos todos os meus). Portanto, se você tiver um servidor realmente antigo que não tenha problemas com o tempo de CPU ou escassez de memória, provavelmente terá espaço para melhorar significativamente o desempenho, substituindo discos rígidos que estão várias gerações atrás do que você pode facilmente comprar para substituí-los.

    
por 21.05.2010 / 15:28
3

Depende do impacto se a falha do disco rígido.

Se você não tem um RAID Se você não se importa com a disponibilidade do servidor, porque o serviço pode ser interrompido ou porque está em alta disponibilidade e se você tiver um backup de dados em funcionamento. Eu diria Ok, deixe a unidade morrer e altere-a e restaure os dados quando eles falharem.
Se você se preocupa com disponibilidade, direi usar RAID;)

Se você tem um RAID (1, 5, 6, ...)
Eu diria, por que mudar o disco rígido antes da falha? RAID (e backup) está aqui para isso. Mudar um disco rígido apenas no caso de ele falhar pode ser um risco para quebrar algo (a reconstrução do ataque é sempre arriscada)

Mas é apenas o meu ponto de vista! Se você acha que sua unidade pode ser muito antiga, convém alterar seu servidor também.

    
por 21.05.2010 / 14:36
2

Alguns discos morrem em 1 hora, outros duram 2 décadas.

Se não houver falha ou falha (algo que você normalmente pode estabelecer por meio de problemas de monitoração ou desempenho do S.M.A.R.T.), a única outra razão para descartá-lo é se ele não for grande ou rápido o suficiente para seus propósitos.

    
por 21.05.2010 / 14:28
2

Com os discos, a questão não é se eles falharem, mas quando . Eles são dispositivos mecânicos (a menos que usem SSDs, mas eles têm suas próprias advertências), então eles falharão, mais cedo ou mais tarde.

Vendedores de discos tendem a adaptar seus processos de fabricação o mais barato possível, porque até um único centavo economizado por disco pode ser muito importante quando você produz e vende milhares deles; mas é claro que eles não querem que seus discos falhem antes que o período de garantia termine, ou eles estariam substituindo-os gratuitamente o tempo todo; então, eles vão gastar o quanto for necessário para que eles durem, desde que a garantia os cubra ... mas nem um centavo a mais.

O resultado final é: a maioria dos discos tendem a falhar logo após o término do período de garantia. Esta não é uma regra geral, é apenas estatística, e seu disco pode falhar agora ou durar até que você não precise mais ... mas, estatisticamente, há muitos discos que falham alguns dias ou meses após a expiração de sua garantia.

É claro que comprar novos quando você ainda não precisa deles pode ser caro ... mas substituí-los depois que a garantia expirar e eles falharem será caro de qualquer maneira.

Agora, se você puder encontrar uma maneira de fazê-los falhar enquanto ainda estiver garantido (e não perder dados no processo, ou seja, ter bons backups RAID AND ), , isso seria ótimo; -)

    
por 21.05.2010 / 14:36
2

Eu não substituiria uma unidade em funcionamento mais do que substituiria uma fonte de alimentação em funcionamento. Ambos acabarão fracassando, mas não faz sentido, tecnicamente ou financeiramente, substituí-los sem uma boa causa. Substitua-os quando começarem a mostrar sinais de problemas.

No caso dos discos rígidos, a tendência é que, se um disco falhar antes, é mais provável que o faça no primeiro ano. Unidades que ficaram sem problemas por 6 anos normalmente podem ser usadas para continuar a trabalhar por pelo menos mais alguns anos ainda. Obviamente, há muitas exceções para isso, mas é a tendência geral.

    
por 21.05.2010 / 14:58
1

Além disso, lembre-se de que a maioria das unidades de classe de servidor tem requisitos de fabricação mais rigorosos e são geralmente mais confiáveis do que as unidades de desktop de baixo custo / orçamento. Portanto, além dos perigos de substituir uma unidade "boa" no caso de ela possivelmente falhar, fazer isso para uma grande variedade pode resultar em uma grande soma em dinheiro.

Além disso, ao usar um RAID, é por isso que é uma boa idéia ter pelo menos um hot spare no servidor, para que ele possa começar a reconstruir rapidamente e permanecer saudável até que você faça as substituições conforme necessário.

    
por 21.05.2010 / 15:30
1

Eu fiz isso em sistemas "zero-downtime". Realmente, é provável que você perca uma unidade diferente quando o RAID for recompilado ... Eu troquei uma vez e acabei trocando-a de volta quando outra unidade começou a gerar erros durante a reconstrução .

É realmente uma questão filosófica: se você acredita em testes de estresse pró-ativo (tanto do array quanto de seu sistema cardiovascular), então você deve trocar suas unidades. Mas, na verdade, você nunca saberá qual disco vai ficar ruim depois. Não é de todo improvável que você possa perder a unidade recém-substituída antes de perder qualquer uma das unidades mais antigas e comprovadas.

Dito isso, eu perderia meu tempo testando o estresse da minha solução de backup e deixando as unidades em paz até que elas começassem a gerar erros.

    
por 21.05.2010 / 15:54