A interface de gerenciamento de PDU tem baixa disponibilidade - falha no produto ou problema isolado

3

Nosso provedor de colocation nos forneceu a APC AP7932 comutou PDUs 0U como parte de vários gabinetes que eles nos fornecem. Nós tivemos muitos problemas com o aspecto de gerenciamento de rede dessas PDUs, que descreverei abaixo. Estamos mudando para o espaço da gaiola no mesmo datacenter e compraremos nossos próprios PDUs para a gaiola. Eu gostaria de determinar quais PDUs de nível empresarial têm sido confiáveis em uma perspectiva de gerenciamento remoto, para que não acabemos comprando algo que pareça bom no papel, mas é um pesadelo para usar.

Nossas PDUs fornecidas por colo são configuradas para suportar o gerenciamento por meio de uma interface de usuário da web SSL e via telnet. Atualizamos o firmware de todos eles para a versão atual a partir de novembro de 2011. Eles respondem a pings de forma confiável e não temos motivos para suspeitar de um problema na camada de rede. No entanto, experimentamos interrupções frequentes, tempos limite, desconexões e indisponibilidade geral do host de gerenciamento incorporado em todas as PDUs. Ocasionalmente, temos que reiniciar o microcontrolador na PDU para recuperar do que parece ser uma falha grave ocasional. Os pontos de venda permanecem ativos (felizmente), mas o aspecto de gerenciamento é tão pouco confiável que se tornou uma responsabilidade de operações - não podemos ter certeza de que poderíamos entrar na PDU para desligar e ligar um host se precisássemos. Temos 3 PDUs que exibem comportamento idêntico.

Existem muitos fabricantes de PDUs comutados 0U de nível empresarial, todos com características comparáveis. Se eu olhasse para a folha de dados de nossas PDUs atuais, elas pareceriam um bom ajuste - apenas com o benefício de sofrer com o uso delas, sabemos evitá-las. Eu gostaria de evitar escolher uma PDU que pareça boa no papel, mas tem problemas de confiabilidade semelhantes.

Qual tem sido a experiência de outras pessoas com PDUs comutadas? Este nível de descamação é normal?

    
por HikeOnPast 28.08.2012 / 22:47

1 resposta

2

O que você descreve não é normal, sorta. No entanto, como você está determinando a disponibilidade? Você tem uma solução de monitoramento constantemente fazendo ping / sondando o dispositivo?

No passado, eu tinha OpenNMS definido para coletar de meus dispositivos de UPS e PDU da APC. Algumas das verificações, especificamente as sondagens http, ftp e telnet, causaram o tempo limite da interface de gerenciamento, criando interrupções de 30 a 60 segundos. Talvez seja isso que você está vendo.

Eu nunca tive problemas com a coleção SNMP, no entanto. Então, se este for o caso, tente reduzir os acessos à interface de gerenciamento e concentre-se apenas em coletar o que você precisa.

Um trecho do meu gráfico de disponibilidade do OpenNMS em uma interface APC

    
por 29.08.2012 / 19:17