Devo desligar o servidor híbrido com GPU no IDLE?

1

Existe um servidor com 2 CPUs (Intel Xeon E5-2670, Sandy Bridge) e 1 AMD GPU (Tahiti XT Radeon HD 7970). Há também SSD (arquivos do sistema e executáveis) e HDD (dados pesados) conectados a este servidor.

Às vezes, o servidor funciona com carga alta por várias horas. Às vezes, o servidor fica ocioso por várias horas (a inatividade pode demorar mais de 8 horas).

Eu ouvi duas opiniões opostas:

  1. Eu não deveria desligar meu servidor porque o servidor foi projetado para funcionar sem desligar. Milhares de servidores não estão desligados e trabalham por mês sem paradas.
  2. O servidor deve ser desativado se não houver carga nele. Especialmente por causa da GPU. Há recursos limitados de GPU e de cooler de GPU e não é bom que a GPU seja ligada o tempo todo, mesmo que não esteja sob carga pesada.

Qual opinião está certa? Devo ou não desligar este servidor para aumentar significativamente sua vida útil?

UPD 1 Eu me pergunto, em primeiro lugar, sobre o trabalho ininterrupto da GPU.

UPD 2 Sobre a escolha da GPU. Isso não é apenas GPU para jogos. A Radeon 7970 venceu por exemplo a Nvidia Kepler em vários casos. Veja a apresentação .

UPD 3 Existe uma opinião de que é uma péssima estratégia para a máquina baseada em GPU ser ligada no IDLE. Eu tento entender é uma opinião verdadeira ou falsa

    
por petRUShka 20.08.2013 / 21:36

1 resposta

1

Prós para desligar o servidor quando ocioso:

  • Menor consumo de energia (zero), o que economiza custos com eletricidade e refrigeração
  • Menos desgaste nos fãs, que é a coisa mais provável de morrer na GPU (ou no resto do servidor, provavelmente.
  • Se você tiver um desligamento programado todas as noites, agendar as atualizações do Windows ficará muito mais fácil

Contras para desligar o servidor quando ocioso:

  • Os motores (tanto os ventiladores quanto as unidades giratórias) são mais propensos a não girar do que não continuar girando
  • O servidor não está disponível se houver algum trabalho para fazer no meio da noite
  • Estresse nos componentes - há uma grande diferença de temperatura (especialmente em uma sala com ar condicionado) entre um servidor em execução e um desligado. O ciclo de temperatura faz com que o metal se expanda e contraia a cada vez, o que acabará por desgastar as peças.
  • Problemas de software e SO são mais prováveis de acontecer no momento da inicialização. Talvez o último lote de atualizações do Windows tenha bagunçado alguma coisa, ou o seu bootloader esteja corrompido, etc. É claro que elas aparecerão na próxima vez que você reiniciar de qualquer maneira, mas pelo menos você não precisa se preocupar com elas diariamente, e corremos para consertá-los às 8h50 antes de todos chegarem às 9h.

Ventiladores e discos rígidos são as únicas partes da maioria dos sistemas que possuem motores. Os motores do disco rígido estão bem protegidos do ambiente, mas os ventiladores estão expostos a toda a poeira no ar. Então eles se desgastam rapidamente em comparação com outras partes. É por isso que na maioria dos servidores eles são hot swappable - você pode substituí-los sem desligar o servidor. Há também mais fãs do que o necessário, então uma única falha do ventilador não causa superaquecimento do sistema.

No entanto, isso não significa que desativá-los é necessariamente uma coisa boa. A maioria dos fãs que estão começando a se desgastar, trabalham bem quando chegam à velocidade, mas têm problemas para começar. Então, eles não conseguirão se conectar quando o servidor for ligado novamente, mas podem ter continuado a funcionar se ele foi deixado o tempo todo.

Pensamentos especificamente sobre a placa de vídeo:

  • A placa de vídeo que você está usando destina-se a sistemas de jogos de ponta. A linha de placas de vídeo da AMD FirePro é criada para uso do servidor.
  • Uma das grandes diferenças que você notará de imediato é que apenas o modelo final mais alto tem um ventilador, o restante é esfriado passivamente. Aquele com fãs na verdade tinha 3 deles, e eles são maiores e provavelmente mais duráveis do que os fãs em placas de vídeo para jogos.
  • As placas gráficas do servidor também são construídas para uma carga de trabalho 24x7, portanto, elas têm componentes mais duráveis no geral.

Todas as placas de vídeo retardarão seus fãs e diminuirão o consumo de energia quando estiverem ociosos. Não há um "recurso limitado de GPU" se você quer dizer algo como "depois de 1 trilhão de cálculos, a placa de vídeo vai morrer", mas definitivamente há um número limitado de horas que a ventoinha executará antes de falhar. No lado da área de trabalho, eu tive muitos sistemas com placas de vídeo dedicadas que rodavam quase 24x7 por 2-3 anos antes de a ventoinha da placa de vídeo morrer. Em um ambiente de sala de servidores real, com menos calor e menos poeira do que um ambiente de desktop, espero que funcione por um bom tempo sem manutenção. Mas apenas no caso, eu pedi alguns fãs de substituição para que eu tenha um pronto se morrer.

Conclusão

  • Mantenha o servidor ligado, mesmo que ocioso, a menos que ele fique ocioso por muitos dias ou semanas de cada vez. E mesmo assim, eu deixaria isso.
  • Capture alguns ventiladores para essa GPU. Especialmente porque será difícil encontrá-los em um ano ou dois quando o cartão for considerado desatualizado.
  • Procure substituir a GPU por um equivalente de classe de servidor. Se essa é uma boa opção depende das necessidades e orçamento de processamento da sua GPU. Você pode decidir que é mais barato ter apenas um cartão sobressalente inteiro no caso de um deles morrer.
por 28.08.2013 / 15:19