Qual é o topo normal S.M.A.R.T. temperatura para HGST Hélio Ultrastar 8TB 7200 RPM SAS 12Gb / s drives corporativos?

4

Acabei de receber o novo servidor Dell R730xd 2U com compartimento de 12 * 3,5 "baias de unidade + 4 * 3,5" bandeja de meio do corpo, localizada acima dos módulos de RAM & CPUs. Eu pluguei 16 drives HGST Helium 8Tb 7200 RPM SAS de 12Gb / s e iniciei 2 * 8 * 8Tb volumes RAID6 background init.

Eu questiono a temperatura dos drives com o smartctl. Enquanto as unidades frontais são esperadas legalmente na faixa de 33C a 37C, as unidades intermediárias # 14..17 são 45C, 46C, 51C, 54C - esta última é a que mais me preocupa com o superaquecimento. A inicialização durou apenas algumas horas.

O iDRAC relata que o ar de entrada é 22 ° C e a saída é de 44 ° C. Os fãs giram a ~ 4.3k RPM. Eles giram a ~ 15k se a tampa estiver desligada.

A imagem térmica mostra # 17 é a mais quente com a temperatura do gabinete em 47C.

Eu ainda não tenho certeza se há algo com a unidade específica ou é sobre a localização da unidade - irá verificar, excluindo VD e trocando duas unidades locais - irá atualizar este post com observações.

As especificações do Mfg dizem que o ambiente operacional normal T é de até 60C ( link )

Na minha opinião, o aumento da temperatura afeta a longevidade da unidade.

No entanto, duas unidades traseiras flexíveis no meu antigo R720xd são 15kRPM e estavam sempre em torno de 55C, ainda vivas após 3+ anos.

Além disso, solicitei o suporte do HGST para sua posição.

Outro tópico no serverfault aponta para a pesquisa do Google, afirmando que T é um fator depois de alguns anos. ( link )

UPD1 (20151102): O fabricante respondeu rapidamente: "Este inversor pode operar em temperaturas entre 5 e 60 C. O inversor normalmente deve operar abaixo de 50 ° C. Se estiver operando em uma temperatura estável de 55 ° C, ele estará um pouco mais quente do que o normal, mas ainda em um intervalo seguro. "

UPD2: eu troquei # 14 e # 17 lugares - superaquecimento é específico do local, lado direito (olhando de frente para trás) é mais quente que o lado esquerdo e ex # 14 no assento # 17 estava mostrando top 56C e ex # 17 em # 14 assento foi legal em 40-45C. Ajustando o iDRAC - > Hardware - > Ventiladores - > Configuração > Deslocamento de velocidade do ventilador para "Deslocamento de velocidade baixa do ventilador (+ 23%)" (6,8k RPM em marcha lenta vs 4.4kRPM padrão, executando o RAID) 14 e # 17 de 49C e 54C a 40C e 47C. A configuração de ventoinhas para 15kRPM (definindo a reação padrão para placas PCI de terceiros - eu tenho uma) traz temperaturas para 34C e 39C a um custo de uso de energia extra de + 120W (340W vs 230W).

Claro que não estou usando discos aprovados pela Dell. Não há unidades de 8 TB oferecidas pela Dell para este servidor agora, e 6 TB SAS são US $ 830 por peça. Eu tenho 8Tb Helium SAS por US $ 498, trazendo custo de TB pré-RAID de US $ 138 para US $ 62. Mais tarde, percebi que a empresa Dell (e com suporte do Lifecycle Controller) pode estar em melhor comunicação com o resfriamento e também obter atualizações de firmware via LC.

Outra surpresa agradável para mim - as trocas # 14 e # 17 não resultaram na reconstrução do RAID - o controlador apenas detectou discos em novos locais sem dizer uma palavra nos logs.

UPD 20160426: Agora tendo implantado múltiplos de R730xd com 12 + 4 equipados com HGST 8T 12G SAS ou Seagate 8Tb 12G SAS, observo que em todos eles # 14 é ~ 10C mais frio que # 17 e remédio parcial para trazê-lo A faixa 40-47C é para aumentar a configuração de velocidade dos ventiladores no iDRAC para + 30%.

    
por kuz8 01.11.2015 / 09:05

3 respostas

4

Qualquer coisa abaixo de 55-60 C deve estar ok. De qualquer forma, o que é realmente perigoso para um acionamento mecânico são repetidas excursões térmicas, em que o acionamento fica quente e rapidamente esfria. Igualmente perigosos são os ciclos de spinon / spinoff repetidos.

Como afirmado pela EEAA, se é uma configuração suportada pela DELL, você não deve temer.

    
por 01.11.2015 / 13:26
2

Acrescentei isso como um indicativo para uma pesquisa mais relevante, que é mais recente que o trabalho do Google, e parece ter algum rigor em sua metodologia.

O Backblaze, o pessoal do pod de armazenamento, fez uma análise da taxa de falhas vs. temperatura por modelo de acionamento e, na maioria dos casos, não há correlação. Para três modelos (dois Seagate Barracudas e um Hitachi Deskstar), a correlação é de significância estatística (eles não dizem qual é o limiar de significância, mas suponho que os números sejam medicamente padronizados em 95%), e em um desses casos é bem strong.

A conclusão deles, que eu reproduzo na íntegra, é que

Overall, there is not a correlation between operating temperature and failure rates. The one exception is the Seagate Barracuda 1.5TB drives, which fail slightly more when they run warmer.

As long as you run drives well within their allowed range of operating temperatures, keeping them cooler doesn’t matter.

Então, no seu caso, eu diria que você não tem nenhum problema real. (Isenção de responsabilidade: não tenho conexão com o Backblaze.)

    
por 02.11.2015 / 08:22
1

Os fabricantes de servidores colocam um lote de dinheiro no projeto de seus sistemas para serem confiáveis e executar dentro da especificação para quaisquer componentes de terceiros que possam estar incluídos. A Dell não garantiria essas unidades se esperasse que elas tivessem uma vida curta.

Se a Dell diz que esta é uma configuração suportada, não se preocupe com isso. O equipamento moderno é um muito mais tolerante a altas temperaturas do que o equipamento de 10-15 anos atrás. Você tem RAID e está protegido contra falhas de unidade dupla. IMHO você deve gastar seu tempo trabalhando em outra coisa além de adivinhar o gerenciamento térmico deste servidor.

    
por 01.11.2015 / 10:33