MTTF, MTBF, MTBR e MTBF para HP ProLiant Gen9

14

Tenho pesquisado MTTF, MTBF, MTBR e MTBF para servidores HP Gen9 em execução em nosso ambiente de produção.

A raiz da minha pergunta deve estar preocupada ou não.

Não consigo obter dados bons, pois cada servidor possui uma combinação de hardware.

Na minha última empresa, corremos cerca de 2000 dell server r210 r410 r710 Eu diria que, em média, tivemos cerca de 5 servidores por dia que tiveram algum tipo de falha. Por isso, cerca de 0,25% do servidor ficou com problemas e precisou ter uma peça substituída antes de poder ser usada novamente.

Minha última empresa foi configurada em uma infraestrutura de N + 2 com par de HA, portanto, não houve impacto na produção. Conseguimos substituir os servidores e continuar

No meu escritório atual, nós executamos 9 servidores, (HP Gen9, 56 VM's Hyper-V) não mantemos muitas peças de reposição à mão e o datacenter não é gerenciado, por isso, se algo morre, temos que dirigir cerca de 45 minutos para substituir qualquer coisa.

Meu CTO e o gerente de TI não parecem estar preocupados, eles tiveram cerca de 2,5 dias de inatividade no ano passado, estive pensando que precisamos agrupar os servidores, mas eles não veem necessidade.

Existe algo errado ou certo aqui? Não tenho certeza do que fazer.

Eu sei que não é minha responsabilidade se algo acontecer no CTO. Esta é uma empresa muito pequena, apenas o CTO, IT Manager, eu (dev ops) e 1 help desk.

Ao longo de toda a experiência na execução de um ambiente de produção, é muito limitado, o modo como muitas coisas são configuradas eu chamaria de nível muito júnior, nem meu CTO nem o IT Manager sabiam muito sobre cluster antes de eu chegar lá. Eles estavam no meio de um projeto para configurar DR sem HA, contra o qual eu me opus, mas perdi.

    
por Anthony Fornito 13.01.2018 / 00:27

1 resposta

3

Não se preocupe com os números de MTTF, MTBF, MTBR e MTBF ... por que aqueles se aplicam às especificidades do seu ambiente?

Os servidores possuem redundâncias internas e podem ser extremamente estáveis na produção. Mas isso depende do seu ambiente, da matriz / composição do disco, tipos de discos, quantidade de memória RAM, configuração da CPU, características térmicas, potência, etc.

O uso de alguma forma de alta disponibilidade pode reduzir o potencial de tempo de inatividade e fornecer um local para mudar suas cargas de trabalho no caso de uma falha.

Esta é uma questão de risco financeiro e operacional.

Talvez o custo incremental de ir de autônomo para cluster seja alto o bastante para não fazer sentido para os negócios? Talvez os 2,5 dias de inatividade (~ 99,3% de disponibilidade) sejam bons o suficiente para a sua operação. Você deve se concentrar na proteção externa e em bons backups. Todos os seus sistemas HP Gen9 estão sob garantia do fabricante hoje, então você faz tem acesso a peças. Se você tem RAID, fontes de alimentação / ventoinhas redundantes e energia estável, você cobriu as áreas mais críticas.

Pense nisso a partir de uma perspectiva financeira e defina os riscos, os custos associados e tente criar um caso comercial atraente para o que você deseja.

    
por 13.01.2018 / 00:52