O consenso geral parece ser que a resposta à sua pergunta vem em duas partes:
Como encontramos a fonte do cheiro de queimado engraçado?
Você tem o "como" bem marcado:
- O "teste de detecção"
- Procure fumaça / neblina visível
- Ande pela sala com uma câmera térmica (IR) para encontrar pontos de acesso
- Verificar o monitoramento e os painéis de dispositivos para alertas
Você pode melhorar suas chances de encontrar o problema rapidamente de várias maneiras - o monitoramento aprimorado é geralmente o mais fácil. Algumas perguntas a fazer:
- Você recebe alertas de temperatura e outros alertas de saúde do seu equipamento?
- Seus sistemas UPS estão relatando falhas no seu sistema de monitoramento?
- Você recebe alarmes de extração de corrente do seu equipamento de distribuição de energia?
- Os detectores de fumaça da sala estão se reportando ao sistema de monitoramento? (e eles podem? )
Quando devemos solucionar o problema contra o Big Red Switch?
Esta é uma questão mais interessante.
Acertar o grande interruptor vermelho pode custar à sua empresa uma enorme quantidade de dinheiro com pressa: os lançamentos de agentes limpos podem chegar a dezenas de milhares de dólares e os custos de recuperação após um desligamento de emergência (EPO, "soltando o quarto") pode ser devastador.
Você não deseja descartar um datacenter porque um capacitor em uma fonte de alimentação estourou e fez a sala cheirar.
Por outro lado, um incêndio em uma sala de servidores pode custar à sua empresa seus dados / equipamentos e, mais importante, a vida de sua equipe. Solução de problemas "aquele cheiro ardente engraçado" nunca deve prevalecer sobre segurança , por isso é importante ter algumas regras claras sobre a resolução de problemas das condições "pré-ativação".
As diretrizes que seguem são minhas limitações pessoais que eu aplico na ausência de (ou em adição a) quaisquer outros procedimentos / regras claramente definidos - eles me serviram bem e podem ajudá-lo, mas eles poderiam facilmente me matar ou ser demitido amanhã, então aplique-os por sua conta e risco.
-
Se você vê fumaça ou fogo, largue a sala
Isso deve ser dito sem dizer, mas vamos dizer de qualquer maneira: se houver um incêndio ativo (ou fumaça indicando que logo haverá) você evacua a sala, corta a energia e descarrega o sistema de supressão de incêndio. Exceções podem existir (exercitar algum senso comum), mas esta é quase sempre a ação correta. -
Se você estiver tentando solucionar problemas, sempre tenha pelo menos uma outra pessoa envolvida
Isso é por dois motivos. Primeiro, você não quer ficar vagando em um datacenter e, de repente, um rack subir na fila em que você está andando e ninguém sabe que você está lá. Em segundo lugar, a outra pessoa é sua verificação de sanidade em solução de problemas versus soltar a sala, e se você ligar para o Big Red Switch, você tem o benefício de ter uma segunda pessoa concordando com a decisão (ajuda a evitar os aspectos limitadores da carreira). de tal decisão se alguém questiona mais tarde). -
Exercite medidas de segurança prudentes ao solucionar problemas
Certifique-se de sempre ter um caminho de escape (uma extremidade aberta de uma linha e um caminho claro para uma saída). Mantenha alguém postado no lançamento de supressão de incêndio / EPO.
Levar um extintor de incêndio com você (Halon ou outro agente limpo, por favor).
Lembre-se da regra 1 acima. Em caso de dúvida, saia da sala. Tome cuidado com sua respiração: use um respirador ou uma máscara de oxigênio. Isso pode salvar sua saúde em caso de incêndio químico. -
Defina um limite e cumpra-o
Mais precisamente, defina dois limites:- Condição ("Quanto pior vou deixar isso acontecer?"), e
- Time ("Por quanto tempo vou continuar tentando encontrar o problema antes que seja muito arriscado?").
Os limites que você define também podem ser usados para permitir que sua equipe inicie um desligamento ordenado da área afetada, então quando você DO forçar a energia, você não está batendo em um monte de máquinas ativas, e seu o tempo de recuperação será muito menor, mas lembre-se de que, se o desligamento ordenado estiver demorando demais, talvez seja necessário deixar alguns sistemas falharem em nome da segurança.
-
Confie no seu instinto
Se você estiver preocupado com a segurança a qualquer momento, ligue para a solução de problemas e limpe a sala.
Você pode ou não abandonar a sala com base em um pressentimento, mas é prudente reagrupar-se fora da sala com segurança (relativa).
Se não houver perigo iminente, você pode escolher trazer o corpo de bombeiros local antes de tomar quaisquer ações drásticas, como um EPO ou liberação de agente limpo. (Eles podem lhe dizer para fazer isso de qualquer maneira: o mandato deles é proteger as pessoas, e depois a propriedade, mas eles são obviamente os especialistas em lidar com incêndios, então você deve fazer o que eles dizem!)
We've addressed this in comments, but it may as well get summarized in an answer too -- @DeerHunter, @Chris, @Sirex, and many others contributed to the discussion