Um plano para atenuar falhas do PDU?

3

Um cliente experimentou uma falha completa de um APC AP7911A unidade de distribuição de energia (PDU) de rack comutada / medida. Isso obviamente levou todo o equipamento conectado para baixo. O equipamento está bem, assim como as unidades UPS a montante.

Em situações em que não é possível equilibrar dispositivos em várias alimentações de energia / PDUs / unidades UPS (por exemplo, comutadores com fontes de alimentação únicas, falta de alimentação de energia de linha alta, etc.), como você atenua falhas como essa? Esta era uma instalação de rack único em uma sala de informática menos do que ideal, mas típica para a maioria das pequenas e médias empresas. Deve-se planejar uma falha individual da PDU, ou é apenas algo que é tratado quando isso acontece?

    
por ewwhite 15.12.2011 / 10:34

5 respostas

3

Várias PSUs em servidores são boas, mas não são uma mágica. Muitas vezes, quando há coisas a fazer com o poder, eles tiram outras coisas ao seu redor, por exemplo. o backplane ao qual seu psus redundante se conecta. É muito mais provável que continue em execução se você tiver dois servidores em no-breaks separados.

O melhor de tudo é trabalhar em redundância em sua aplicação ou camada de plataforma para que máquinas ou racks possam sair sem causar problemas, mas quando você não tem o orçamento para isso, você ainda pode reduzir o risco tendo peças de qualquer equipamento não redundante pronto para trocar, mas também mantendo as coisas simples. Uma PDU sofisticada gerenciada tem muito mais probabilidade de cair do que uma barra de energia estúpida.

Vale a pena ter em mente que muitas pequenas empresas simplesmente não podem fazer as coisas da maneira correta ou optar por fazer as coisas da maneira mais barata e viver com as conseqüências se elas acontecerem. Já vi administradores inexperientes saírem de seu caminho para evitar fazer as coisas de uma determinada maneira que foram programadas por aqui ou em sites semelhantes apenas para colocar algo pior no lugar. Uma solução menos que ideal é geralmente melhor que nada.

    
por 15.12.2011 / 11:07
2

Eu estive exatamente na mesma situação, onde fiz o meu melhor para ter redundância em um cluster de servidores, mas a situação foi prejudicada pela falha de uma fonte de energia que, por sua vez, causou um dispositivo que tem apenas uma PSU para falhar. Às vezes, o único dispositivo PSU tem sido crítico, como um DC de backup, um switch ou um array de ventiladores de gabinete de rack.

A melhor resposta que eu tenho é usar uma PDU com ** Automatic Transfer Switch ** (ATS). Isso permite vincular a PDU a duas fontes de energia e alternará entre as duas sem tempo de inatividade, se uma falhar. Isso é ideal para seus dispositivos PSU individuais, obviamente porque eles permanecem ligados. O switch ATS normalmente tem cerca de 8 tomadas, de modo que efetivamente ocupa o lugar de uma PDU.

Para cenários típicos de PME, nos quais você não tem dois circuitos de energia no datacenter, mas pode ter um rack conectado a um no-break e à rede elétrica ou a partir de dois no-breaks, isso fornece uma boa proteção; sempre vai apostar em qual fonte de PDU vai falhar primeiro. Eu também acho que esses switches ATS são mais resilientes que os PDUs padrão, o que mitiga ainda mais o desastre.

    
por 15.12.2011 / 13:25
1

Quanto ao kit legado com uma única PSU, tanto quanto eu sei, é como você diz, é apenas algo que é tratado quando isso acontece, mas definitivamente planejo que isso aconteça.

Eu tomaria nota do kit que é configurado assim, se possível, e planejo o fracasso, e espero em um ponto.

Sugiro garantir que os backups sejam bem planejados e estejam funcionando bem, e que os planos de recuperação de desastre sejam bem pensados e testados regularmente.

Quando se trata de comprar um novo kit, eu compraria esses servidores com PSU dupla e conectaria cada um em um no-break separado (via PDU, se necessário). Até mesmo os servidores Dell low-end baratos de pequenas e médias empresas podem ser adquiridos com duas PSUs.

    
por 15.12.2011 / 10:44
1

Estou em uma situação um pouco incomum, pois temos vários datacenters próprios e decidimos como as coisas funcionam, e usamos blades, mas em geral temos metade de nossas PSUs indo para uma PDU e a outra metade vá para outra PDU exatamente por esse motivo. Agora, normalmente, ambas as PDUs estão no mesmo PDU / UPS muito grande, cada uma das quais serve múltiplas filas de meia fila de 40 racks. Então nós dividimos nossos clusters ao longo das linhas, isto é, o membro de cluster 1 em uma das primeiras 20 racks da primeira linha, o número 2 na segunda 20 racks da primeira linha, o número 3 nas primeiras 20 racks da segunda linha etc. como estamos cobertos se perdermos uma PSU, PDU, PDU grande / UPS ou linha inteira (por inundação, incêndio, etc.). Mas como eu digo isso, eu acho um pouco incomum, mas espero que algumas dicas sobre como fazemos isso, eu sempre sugiro PDUs diferentes, mas certifique-se de usar várias PDUs centrais e grandes e UPSs que você não está obtendo fases muito por motivos de segurança (procure SF por argumentos anteriores de fase cruzada :))

    
por 15.12.2011 / 10:57
-2

Se você não puder instalar uma segunda PDU no rack, não terá outras opções além de configurar seu servidor de forma que as perdas súbitas de energia causem apenas danos mínimos.

  1. Antes de tudo, certifique-se de usar controladores RAID com bateria, para que os dados no disco sejam consistentes ou, pelo menos, possam ser levados a um estado consistente quando a energia for restaurada.
  2. Segundo, use sistemas de arquivos de registro no diário. Isso ajuda a manter o sistema de arquivos consistente.
  3. Terceiro, tente configurar todos os serviços em execução de forma que haja algo parecido com transações: Todas as estruturas de dados podem ser trazidas de volta a um estado consistente e aceitar uma perda mínima de dados, se necessário (Rollback). Isso varia muito de serviço para serviço (bancos de dados, frequência de modificações, logs ...) e pode ou não exigir bastante trabalho manual do seu lado. Se é possível a todos ...
  4. Em quarto lugar, ajuste sua estratégia de backup de acordo e tente ter mais e menores backups (em vez de poucos e grandes).

Mas eu preciso ser honesto aqui, os três primeiros não oferecem 100% de proteção. Esteja preparado para restaurar a partir do backup a qualquer momento.

    
por 15.12.2011 / 11:50