Existe algum momento em que a duração do disco rígido (Power On Hours) requer substituição? [duplicado]

3

Tenho várias matrizes de armazenamento em que um número significativo de unidades foi ligado entre 25.000 a 30.000 horas (2.8 a 3.4 anos). Essas unidades não têm outros problemas ou erros.

O que eu quero saber: há um ponto em que a idade da unidade sozinha é um fator significativo o suficiente para substituir uma unidade, mesmo se a unidade estiver funcionando bem e não tiver erros?

(Estou curioso para ver se as pessoas tendem a executar unidades até que elas falhem ou comecem a gerar erros ou se alguém adotar uma abordagem proativa na substituição usando o Power On Hours como uma métrica.)

Os fabricantes de drives geralmente citam o MTBF em drives corporativos em 1.000.000 a 1.500.000 horas, mas esses números não significam muito no mundo real.

Eu localizei este estudo concluído em 2007:

Falhas de disco no mundo real: o que um MTTF de 1.000.000 horas significa para você?

link

O estudo sugere um "ponto ideal" entre 1 ano e 5-7 anos, em que você pode esperar menos falhas. A idade de dirigir antes / depois desses tempos tendeu a ser consideravelmente maior.

    
por jlehtinen 24.01.2014 / 18:38

3 respostas

5

Não.

Você substitui as unidades quando elas falham (ou você obtém uma falha preditiva, como com a SMART), não apenas porque elas têm uma certa idade. Já vi discos durarem mais de 15 anos e os discos vistos falham em menos de uma hora, portanto, a idade não é um bom indicador de falha no disco.

    
por 25.01.2014 / 18:45
4

Já vi servidores com 10-15 anos de idade com unidades originais ainda em execução e a função que desempenham inalterada. Eu vi servidores com menos de um ano terem uma falha catastrófica de disco.

Eu não tenho uma opinião sobre quão boa / má prática é executar uma unidade até que ela mostre um sinal de falha, então minha resposta seria "depende" - em backups, valor dos dados / ferramentas, tamanho de a unidade, a intensidade da atividade, se ela estiver em uma matriz espelhada, e se o tempo de inatividade para substituí-la puder ser concedido - o que pode ser mais caro do que o mero hardware.

Acho que, com base nessas coisas e em outras variáveis específicas do seu site e aplicativo, é necessário que seja uma decisão tomada pela sua equipe e não um valor de idade de corte.

Editar: Se os dados ou o tempo de atividade forem importantes, considere uma estratégia de backup e recuperação de desastres com execuções de prática, usando servidores redundantes e matrizes espelhadas com unidades de diferentes lotes. Desta forma, é extremamente improvável que tudo falhe ao mesmo tempo, pelo que poderá substituir o hardware em funcionamento enquanto o mau é substituído sem perda de dados.

    
por 24.01.2014 / 18:44
3

Eu nunca conheci (ou ouvi falar) de alguém que está substituindo unidades apenas porque elas são 'muito antigas' (mantendo armazenamento / servidor em produção).

    
por 24.01.2014 / 18:48