Qual é o limite de temperatura segura para um disco rígido SATA do consumidor?

16

Plano de fundo

Meu sistema de desktop pessoal em casa tem 5 unidades SATA instaladas por dentro. Recentemente, meu sistema começou a falhar de formas estranhas, como pânico aleatório do kernel, e eu finalmente o tracei para degrades aleatórios na matriz RAID. Às vezes eu poderia arrancar, outras vezes não conseguia e assim por diante. Depois de perseguir problemas de software por um tempo eu finalmente fui puxar as unidades e descobri a verdadeira razão que eles estavam falhando: eles eram mais quentes do que um churrasco no dia 4 de julho! O ventilador do gabinete da frente havia se apoderado e a ventoinha do PS tinha um conector de energia solto preso na grade, de modo que o interior do gabinete estava sendo cozido.

Como um aperto, eu encontrei um fã da casa e peguei aquele otário esfriando. Ele correu muito bem com tudo de bom um calafrio. Mais ou menos nessa época, aprendi como obter leituras de temperatura do drive de S.M.A.R.T.

for i in a b c d e; do
    sudo smartctl --all /dev/sd$i | grep Temperature_Celsius
done

Agora eu sei que com o meu caso abriu um ventilador de casa permanentemente limpando as teias de aranha que as unidades funcionam a 31-32 °. Um teste rápido sem ventilação para replicar o estado falhado mostra que as unidades atingiram os 40s mais rapidamente. Eu não sei o quão ruim foi durante o fracasso real ou quanto tempo tem sido assim.

Com isso em mente, substituí os ventiladores com falha, adicionei mais alguns, atualizei o frontal soprando nas unidades de 80 mm a 120 mm e fechei de novo. Com ele de pé novamente, a faixa de temperatura está agora geralmente em 32 ° na parte de baixo do set e 37 ° na parte de cima.

A questão

O que é uma faixa de temperatura operacional geral segura para unidades SATA? O 37 ° deve ser uma preocupação ou o dano não é um problema até depois de um certo ponto?

Embora as unidades pareçam testar bem agora, qual é a probabilidade de exposição ao calor no passado, que provavelmente as tornará propensas a falhas agora?

    
por Caleb 13.12.2011 / 01:09

4 respostas

25

37 graus não deve ser um problema. Naturalmente, os discos rígidos diferem em suas especificações, alguns podem ficar mais quentes que os outros. Você deve verificar as especificações publicadas das unidades que você possui. Por exemplo, a temperatura operacional WD Caviar Black 1TB é de -0 ° C a 60 ° C Claro, você não gostaria que sua unidade rodasse 60 °, pois isso poderia reduzir sua vida útil.

O Google publicou um estudo muito interessante (PDF) sobre saúde e duração do disco rígido, com base em dados coletados de seus sistemas (muitos milhares de discos rígidos). Esse estudo diz que:

Overall our experiments can confirm previously reported temperature effects only for the high end of our temperature range and especially for older drives. In the lower and middle temperature ranges, higher temperatures are not associated with higher failure rates. This is a fairly surprising result, which could indicate that datacenter or server designers have more freedom than previously thought when setting operating temperatures for equipment that contains disk drives.

O gráfico mostra que a taxa de falha não aumenta até a temperatura do inversor passar de 45 graus.

    
por 13.12.2011 / 01:27
3

Esta é apenas a minha experiência pessoal limitada, mas executei algumas unidades nos 40C superiores sem problemas de mais de 2 a 3 anos, pois estava usando um gabinete silencioso (resfriado por um pequeno ventilador para evitar atingir 50C). Nessas temporadas, eu supunha uma vida útil mais curta e uma morte rápida, em vez de corrupção aleatória de dados, mas posso estar errado. Em qualquer caso, qualquer coisa abaixo de 40C-42C está bem.

Mas não subestime outros fatores que possam ter um papel na corrupção de dados:

1) A ponte sul que hospeda o chipset controlador IDE / RAID é freqüentemente resfriada apenas por um pequeno dissipador de calor. Eles tendem a ficar quentes em condições normais, então um aumento na temperatura ambiente devido à falta de fluxo de ar e muitos HDDs podem causar corrupção de dados.

2) O superaquecimento de RAM ou CPU é um erro comum de erros de memória CRC, que se traduz em corrupção de dados. Monitorar a temperatura da CPU e realizar testes de memória é essencial quando se depara com a corrupção de dados.

Se o seu atual S.M.A.R.T. indicadores são bons e não mostram contagens de setor incorrigíveis, eu consideraria as unidades seguras para uso.

    
por 13.12.2011 / 02:10
0

O post inicial afirmou que o usuário não sabia o quão quente suas unidades tinham - alguns discos registraram esse parâmetro e é acessível através das informações da SMART. O sentinal do disco rígido é uma peça do saftware que relata isso como a temperatura máxima em toda a vida útil.

Eu tenho visto resultados para Maxstor, WD & Drives da Seagate

Algumas das minhas unidades USB externas que eu uso para backup mostram temperaturas máximas de 63 & 64 C respeitosamente! Eu agora construí um cooler para o disco externo

    
por 09.03.2014 / 17:28
0

Li o relatório mencionado acima e verifique os intervalos de temperatura operacional para os discos rígidos da Samsung, WD e Hitachi. Com base em pesquisas concluí que as unidades que operam nos 30 graus a 45 graus oferecem a capa de falha menos provável; UM ESPERTO. alta temperatura de até 55 graus não é motivo de preocupação; e que as temperaturas Peek acima de 60 graus indicariam uma expectativa de vida reduzida da unidade.

Meu próprio teste indica que um aumento de até 10 graus é esperado durante períodos de acesso pesado.

Parece haver algum fator desconhecido em funcionamento que está causando taxas de falhas anormais em unidades externas. Embora o calor pareça ser parte do problema, não é a resposta completa. Gostaria de aconselhar todos os usuários de unidades externas para monitorar de perto as temperaturas sempre que houver uma mudança na natureza do uso ou ambiente das unidades. Isso parece ser um problema "desconhecido" (não o usual) que leva a essas unidades superaquecendo inesperadamente.

No momento, estou rejeitando a explicação sobre vírus de computador, a ignorância do usuário, os maus protocolos USB e a colocação das unidades em um local impróprio.

    
por 11.11.2014 / 01:24