Evitar que um servidor HP DL inicialize automaticamente - quais são os cenários?

3

No momento, estamos trabalhando em todo o nosso ambiente e desativando todas as formas que um servidor HP pode reinicializar automaticamente. Isso ocorre em resposta a uma indisponibilidade maciça que fez com que nossos servidores começassem a bater, causando uma interrupção no serviço para vários milhões de clientes. A requisição de "on high" é para que os servidores desliguem, mas não reiniciem até que um ser humano possa guiá-los manualmente on-line quando o "litoral estiver limpo" (temos vários sites geograficamente redundantes).

Até agora, identifiquei as seguintes possíveis causas:

  1. O HP ASR reinicializa automaticamente um host. Isto pode ser desativado desligando o temporizador do ASR.
  2. Desativar a ativação automática no iLO. Acredito que isso só é acionado quando a energia é removida e, em seguida, reaplicada ao host.

No entanto, eu suponho que há ainda outra configuração que é aplicada quando um dos sensores do servidor passa um limite crítico, por exemplo, se o sensor de temperatura ambiente exceder 40 graus C. Isso deve absolutamente desligar um host, mas estou Não sei onde está a configuração para desativar a reinicialização automática após a queda da temperatura ambiente. Ou isso também é controlado pela HP ASR?

Eu só quero garantir que não haja nenhum cenário que eu tenha esquecido que possa nos morder na bunda em produção.

Qualquer ajuda seria apreciada.

    
por Matthew 14.10.2016 / 16:29

1 resposta

0

A abordagem mais clara para isso é controlar seu ambiente.

Os limites de temperatura ambiente para essas plataformas de servidor são bem documentado .
Concentre-se em manter suas instalações e ambiente dentro desses limites. ( me repetindo? )

Se você tem o número de clientes descrito, essa tarefa recai sobre suas instalações e / ou equipe de datacenter, certo?

No nível do servidor local, seu único outro parâmetro é o BIOS Parada Térmica .

Se você está enfrentando esse tipo de problema, ele raramente é súbito e inesperado ... pelo menos até o ponto em que você tem tempo para automatizar o desligamento dos sistemas afetados via ILO.

    
por 14.10.2016 / 17:17