Algo está queimando na sala do servidor; Como posso identificar rapidamente o que é?

449

No outro dia, notamos um terrível cheiro ardente saindo da sala do servidor. Para encurtar a história, acabou sendo um dos módulos de bateria que estava queimando na unidade da UPS, mas demorou algumas horas até podermos descobrir. A principal razão pela qual fomos capazes de descobrir isso é que a tela da UPS finalmente mostrou que o módulo precisava ser substituído.

Aqui estava o problema: toda a sala estava cheia do cheiro. Fazer um teste de cheirar foi muito difícil porque o cheiro tinha se infiltrado em tudo (para não mencionar que nos fez luz). Nós quase erroneamente derrubamos nosso servidor de banco de dados de produção porque é onde o cheiro era mais strong. Os sinais vitais pareciam estar ok (os tempos do CPU mostravam 60 graus C e a velocidade do ventilador ok), mas não tínhamos certeza. Acontece que o módulo de bateria que estava queimado tinha aproximadamente a mesma altura que o servidor no rack e a apenas 3 pés de distância. Se isso tivesse sido uma emergência real, teríamos falhado miseravelmente.

Realisticamente, as chances de que o hardware real do servidor esteja queimando é uma ocorrência bastante rara e, na maioria das vezes, estaremos vendo o UPS como o culpado. Mas com várias prateleiras com vários equipamentos, ela pode rapidamente se tornar um jogo de adivinhação. Como alguém rapidamente e com precisão determina que parte do equipamento está realmente queimando? Eu percebo que esta questão é altamente dependente das variáveis de ambiente como tamanho da sala, ventilação, localização, etc, mas qualquer entrada seria apreciado.

    
por Chad Harrison 04.04.2013 / 16:22

7 respostas

380

O consenso geral parece ser que a resposta à sua pergunta vem em duas partes:

Como encontramos a fonte do cheiro de queimado engraçado?

Você tem o "como" bem marcado:

  • O "teste de detecção"
  • Procure fumaça / neblina visível
  • Ande pela sala com uma câmera térmica (IR) para encontrar pontos de acesso
  • Verificar o monitoramento e os painéis de dispositivos para alertas

Você pode melhorar suas chances de encontrar o problema rapidamente de várias maneiras - o monitoramento aprimorado é geralmente o mais fácil. Algumas perguntas a fazer:

  • Você recebe alertas de temperatura e outros alertas de saúde do seu equipamento?
  • Seus sistemas UPS estão relatando falhas no seu sistema de monitoramento?
  • Você recebe alarmes de extração de corrente do seu equipamento de distribuição de energia?
  • Os detectores de fumaça da sala estão se reportando ao sistema de monitoramento? (e eles podem? )

Quando devemos solucionar o problema contra o Big Red Switch?

Esta é uma questão mais interessante.
Acertar o grande interruptor vermelho pode custar à sua empresa uma enorme quantidade de dinheiro com pressa: os lançamentos de agentes limpos podem chegar a dezenas de milhares de dólares e os custos de recuperação após um desligamento de emergência (EPO, "soltando o quarto") pode ser devastador.
Você não deseja descartar um datacenter porque um capacitor em uma fonte de alimentação estourou e fez a sala cheirar.

Por outro lado, um incêndio em uma sala de servidores pode custar à sua empresa seus dados / equipamentos e, mais importante, a vida de sua equipe. Solução de problemas "aquele cheiro ardente engraçado" nunca deve prevalecer sobre segurança , por isso é importante ter algumas regras claras sobre a resolução de problemas das condições "pré-ativação".

As diretrizes que seguem são minhas limitações pessoais que eu aplico na ausência de (ou em adição a) quaisquer outros procedimentos / regras claramente definidos - eles me serviram bem e podem ajudá-lo, mas eles poderiam facilmente me matar ou ser demitido amanhã, então aplique-os por sua conta e risco.

  1. Se você vê fumaça ou fogo, largue a sala
    Isso deve ser dito sem dizer, mas vamos dizer de qualquer maneira: se houver um incêndio ativo (ou fumaça indicando que logo haverá) você evacua a sala, corta a energia e descarrega o sistema de supressão de incêndio. Exceções podem existir (exercitar algum senso comum), mas esta é quase sempre a ação correta.

  2. Se você estiver tentando solucionar problemas, sempre tenha pelo menos uma outra pessoa envolvida
    Isso é por dois motivos. Primeiro, você não quer ficar vagando em um datacenter e, de repente, um rack subir na fila em que você está andando e ninguém sabe que você está lá. Em segundo lugar, a outra pessoa é sua verificação de sanidade em solução de problemas versus soltar a sala, e se você ligar para o Big Red Switch, você tem o benefício de ter uma segunda pessoa concordando com a decisão (ajuda a evitar os aspectos limitadores da carreira). de tal decisão se alguém questiona mais tarde).

  3. Exercite medidas de segurança prudentes ao solucionar problemas
    Certifique-se de sempre ter um caminho de escape (uma extremidade aberta de uma linha e um caminho claro para uma saída). Mantenha alguém postado no lançamento de supressão de incêndio / EPO.
    Levar um extintor de incêndio com você (Halon ou outro agente limpo, por favor).
    Lembre-se da regra 1 acima. Em caso de dúvida, saia da sala. Tome cuidado com sua respiração: use um respirador ou uma máscara de oxigênio. Isso pode salvar sua saúde em caso de incêndio químico.

  4. Defina um limite e cumpra-o
    Mais precisamente, defina dois limites:

    • Condição ("Quanto pior vou deixar isso acontecer?"), e
    • Time ("Por quanto tempo vou continuar tentando encontrar o problema antes que seja muito arriscado?").

    Os limites que você define também podem ser usados para permitir que sua equipe inicie um desligamento ordenado da área afetada, então quando você DO forçar a energia, você não está batendo em um monte de máquinas ativas, e seu o tempo de recuperação será muito menor, mas lembre-se de que, se o desligamento ordenado estiver demorando demais, talvez seja necessário deixar alguns sistemas falharem em nome da segurança.

  5. Confie no seu instinto
    Se você estiver preocupado com a segurança a qualquer momento, ligue para a solução de problemas e limpe a sala.
    Você pode ou não abandonar a sala com base em um pressentimento, mas é prudente reagrupar-se fora da sala com segurança (relativa).

Se não houver perigo iminente, você pode escolher trazer o corpo de bombeiros local antes de tomar quaisquer ações drásticas, como um EPO ou liberação de agente limpo. (Eles podem lhe dizer para fazer isso de qualquer maneira: o mandato deles é proteger as pessoas, e depois a propriedade, mas eles são obviamente os especialistas em lidar com incêndios, então você deve fazer o que eles dizem!)

We've addressed this in comments, but it may as well get summarized in an answer too -- @DeerHunter, @Chris, @Sirex, and many others contributed to the discussion

    
por 25.01.2017 / 21:47
182

Uma câmera de imagem térmica pode fazer o trabalho e permite identificar onde está o superaquecimento. Um dispositivo como esse permitiria que você identificasse também a origem de um incêndio ou queimasse em uma sala cheia de fumaça.

    
por 04.04.2013 / 16:29
137

Você não faz nenhuma dessas coisas que foram ditas. Você deixa o ambiente perigoso porque o que está sendo bombeado por toda a sala é perigoso para sua saúde e pode realmente atrapalhar seus pulmões. Se houver um cheiro acre de algo queimando na sala que você não consegue encontrar, ligue (911 | 112 | 999 | qualquer número de emergência para sua jurisdição) e deixe o fogo (empresa | departamento | brigada) resolvê-lo enquanto eles está no ar engarrafado.

Peças de computador contêm todos os tipos de produtos químicos interessantes, incluindo o mercúrio , cádmio , chumbo e muito de plásticos em invólucros. Observe que todos os links que fiz explicam como exposições de baixo nível podem causar danos permanentes ou até morte rápida. Este é um ambiente que pode ser imediatamente perigoso para a vida e a saúde

... então, realmente, se algo está queimando, não gaste horas farejando a fumaça. Se você não conseguir identificá-lo e agir imediatamente para contê-lo, saia.

    
por 05.04.2013 / 06:59
76

Se você tiver um monitoramento adequado no no-break (geralmente via SNMP), a própria unidade deve ter tocado os sinos no seu sistema de monitoramento. Caso contrário, fale com o seu fornecedor sobre isso. Ele está com defeito ou seu sistema de monitoramento não está configurado corretamente.

Se algo ativo estiver realmente queimando, ele deve estar reclamando de alguma forma ou simplesmente saindo da rede, o que também deve causar um alarme.

Se é algo como um trilho de corrente real queimando através do isolamento, e não está em uma PDU inteligente, então voltamos à sua pergunta original, que é "como faço para encontrar uma coisa queimando?" E eu acho que a resposta correta é: "Acerte o EPO e descubra. Seus servidores de produção provavelmente não são importantes o suficiente para arriscar vidas".

    
por 04.04.2013 / 16:27
43

Esta é uma daquelas situações em que

nãoseaplica,vocêdeveligarparaumprofissional

Qualquer outra coisa é simplesmente idiota.

    
por 07.04.2013 / 21:19
40

Como alguém cuja carreira anterior era como técnico em eletrônica, tenho experiência com "aromas ardentes" que não eram incêndios. Isso não é incomum.

Eu não desligaria um data center por causa de um cheiro. A fumaça é outra coisa, algo está realmente queimando (geralmente, mas um capacitor de tântalo do tamanho de uma ervilha pode encher uma sala com fumaça também). É incrível o quanto o cheiro de um componente frito em uma fonte de alimentação pode causar.

Um termômetro TIC ou IR (uma ferramenta útil e muito mais barata que um TIC) não necessariamente mostrará isso, pois o componente não gera muito calor e está dentro de um gabinete. Mas verifique se os dispositivos não estão funcionando, use as ferramentas de monitoramento. Para um cheiro assim, 95% das vezes será uma fonte de alimentação afetando o desempenho de todo o dispositivo.

    
por 05.04.2013 / 12:49
19

Eu gosto das respostas de imagem ou termômetro de infravermelho, mas talvez o que também ajudaria é um verdadeiro "detector de odores". Afinal, o que desencadeou sua cautela foi o cheiro. Fumaça, calor, IR etc. são todos substitutos.

Algo como este: .Pessoalmente,nuncaosuseinemosviusadosemumdatacenter.Maspelomenosteoricamente,deveriaserumaboaferramenta.Sevocêtemodinheiroparagastarcomesseaparelhoqueé.

link ou link

Dá-lhe uma força de odor, bem como classificação. Então, voltar ao odor deve ser possível. O diabo está nos detalhes do curso. Quão sensível é, mascarar o odor de fundo espúrio etc.

Uma vantagem em relação às medições puramente baseadas em temperatura é que muitas vezes o odor ocorre em um ponto ou limiar muito anterior. Ou, se o componente superaquecido estiver oculto por um corpo / fiação oculta, etc., é mais fácil detectar moléculas que escapam do que um ponto quente na linha de visão.

Outra situação é um cheiro não relacionado ao calor. Nós tivemos um vazamento no circuito de refrigeração antes e os cheiros do líquido refrigerante também eram peculiares. Eu nem vou entrar no caso agora antigo de um roedor morto nos dutos. :)

Fiquei surpreso com a sensibilidade desses sensores. Aparentemente, H2S / mercaptans, etc. (culpados usuais) são detectáveis em níveis sub ppm.

    
por 05.04.2013 / 14:50