Quando os servidores Dell PowerEdge (R210II e R620) são automaticamente desligados devido ao superaquecimento?

2

Eu tive um bom tempo tentando descobrir quando e como um servidor Dell PowerEdge (no meu caso, temos um monte de R210IIs e R620s com iDRACs) lida com superaquecimento. Eu não quero esperar pela auto-preservação da CPU e, idealmente, o próprio servidor deve lidar com altas temporárias ao longo de um período de tempo emitindo um comando auto IPMI para o sistema operacional para desligar antes que um limite crítico seja atingido. por exemplo. a 55C, emita o comando IPMI para o SO, se o servidor atingir 80C, puxe o plugue, etc ...

O problema é que toda a documentação da Dell não está clara sobre quando ou como ocorre o desligamento do servidor devido ao superaquecimento.

A minha pergunta é se a Dell suporta o desligamento normal do gerenciamento térmico como este, ou se há alguma cópia fina ou uma documentação pouco clara sobre a temperatura crítica em que ele simplesmente extrai seu próprio plugue? O Dell OpenManage é necessário para suportar isso?

Eu realmente gostaria de evitar ter que executar um servidor de gerenciamento dedicado conectado às várias redes (tentando evitar a ponte entre as redes através de um único ponto de gerenciamento) para gerenciar remotamente o desligamento desse jeito. Seria um ponto único de falha que também está sujeito às mesmas condições térmicas codificadas ou inflexíveis que os meus próprios servidores.

Meus R620s têm iDRACs neles. Eu os incluí para os recursos de gerenciamento remoto do iDRAC, mas neste momento estou decepcionado que o iDRAC seja incapaz de lidar com isso. Suas configurações térmicas limitam-se a controlar as velocidades dos ventiladores e a documentação horrível e a ajuda do sistema não indicam quando o desligamento pode ocorrer.

Qualquer conselho do mundo real é muito apreciado! Obrigado.

    
por garlicman 12.12.2013 / 16:23

2 respostas

0

Obrigado a Thomas por desenterrar a referência do OpenManage doc. O OMSA, que precisa ser instalado em algum lugar, depois usado remotamente ou localmente para se conectar ao BMC, define os PEFs do IPMI. Descobri que a Dell fabrica um kit de implantação que contém basicamente todas as ferramentas usadas pelo OMSA para realizar isso.

O Dell OpenManage Development Kit pode ser encontrado aqui:

link

A versão do Linux (parece ser apenas de 64 bits, costumava haver uma versão de 32 bits, mas não consigo encontrá-la) inclui uma imagem inicializável para instalar o firmware, etc ... mas também obtendo um prompt do console com todas as ferramentas de implantação acessíveis. Faça o download, grave, insira em um servidor e inicialize-o. No prompt, você tem acesso ao comando 'syscfg'.

A documentação pode ser encontrada aqui, mas o que você quer é o guia de referência!

link

Usando o comando syscfg, você pode definir um PEF para que o BMC acione uma ação quando um alerta IPMI normal for emitido. O uso atual ficaria assim:

syscfg pcp --filter=tempfail --filteraction=powerdown

Agora, quando o IPMI normalmente relata um alerta de tempfail, o BMC emitirá um evento de desligamento. O sistema operacional deve ser informado do evento via APIC e tentar desligá-lo normalmente. Exceto isso, os limites térmicos internos farão o que eles fazem.

Se você estiver familiarizado com o ipmitool, você também pode verificar (e possivelmente configurar PEFs com ele, mas eu não tentei) o novo PEF que você definiu com algo parecido com isto:

ipmitool <options> pef list

Se você optar por "Temperature", verá algo assim: (não pode C & P do console)

11 | active | 0x11 | Temperature | Any | Critical | Threshold | (0x01/0x0204),<LC,<UC | Alert,Power-off | 1

O Power-off é a ação do PEF recém-adicionada.

Eu não descobri o uso correto para definir o limite de temperatura usando as ferramentas da Dell, mas eu tenho usando ipmitool!

ipmitool <options> sensor list | grep Ambient

Ambient Temp | 24.000 | degrees C | ok | na | na | 3.000 | 8.000 | 42.000 | 47.000 | na

Você pode definir um novo limite com base no uso do parâmetro thresh do sensor ipmitool. Aqui está uma exumaple onde eu mudo o limite crítico superior para 48C:

ipmitool <options> sensor thresh "Ambient Temp" ucr 48.000

Você pode tentar emitir um evento de temperatura crítica superior manualmente, mas parece apenas emitir o evento e não está sujeito às configurações de ação do filtro PEF. (emitir o evento 1 é mais fácil do que identificar manualmente o sensor, etc ...)

ipmitool <options> event 1

O que eu fiz foi configurar a temperatura de desligamento para 25 ° C e desligar a AC do meu servidor por 5 minutos com um colega enquanto monitorávamos tudo. O servidor de destino desligar a 25C.

    
por 12.12.2013 / 19:18
0

O melhor que consegui encontrar foi em um tópico nos fóruns do Spiceworks . A resposta é de um representante da Dell:

There are a lot of ways to do this. You are correct that by default none of the options for a graceful shutdown are enabled, but the server will shut down if a critical threshold is met.

You can set alert actions within the iDRAC/CMC. You can set it to power off when a temperature warning or critical threshold is met. You can also set platform events or alert actions within OMSA. There is also a section in OMSA under shutdown for thermal. You can set it to perform an action there as well. Also, you can configure OMSA to execute a program if an event is triggered. You can use that feature to execute the shutdown program within Windows.

The Power Off option in the alert actions is a graceful shutdown. I recommend that you set it to shutdown on the warning threshold. If you configure it for the critical threshold it may attempt a graceful shutdown and then hit the critical limit and perform a hard shutdown before a graceful shutdown can be completed.

Eu também li um PDF oficial da Dell sobre o OpenManage com este menção de desligamento térmico:

Dell OpenManage Server Administrator (OMSA) enables administrators to set temperature thresholds at which servers should perform an emergency thermal shutdown.

Portanto, a resposta parece ser Sim, os servidores Dell suportam o desligamento térmico normal e a temperatura é configurável. Você pode usar o OpenManage Server Administrator em cada servidor para fazer essas alterações (acredito que você possa fazer essas alterações enquanto o servidor estiver em execução). Você não deve precisar instalar um servidor de gerenciamento OpenManage centralizado, embora possa simplificar muitas outras tarefas de gerenciamento.

: EDIT:
Eu devo acrescentar que essas respostas são genéricas para servidores Dell. Eu não encontrei nada específico para os modelos de servidores que você listou.

    
por 12.12.2013 / 17:21