Onde você encontra seus dados MTBF?

9

O tempo médio entre falhas pode ser difícil de interpretar, mas existe uma riqueza de métodos estatísticos que você pode usar se tiver alguns dados concretos.

O problema é que ninguém mais informa seus números de MTBF. (Além dos fabricantes de discos rígidos, de qualquer forma.)

Onde você vai encontrar dados MTBF para componentes e servidores?

    
por mtnygard 15.06.2009 / 03:50

6 respostas

2

Por que o MTBF não importa

O tempo médio entre o número de falha não é tão importante quanto a taxa de erro incorrigível. MTBF lida com a falha completa da peça, leia a unidade. No entanto, esse número não tem sentido quando um único bit com erro irá causar um pânico com o RAID 5 e colocar o hot spare em ação.

Embora o MTBF para unidades de nível profissional e de consumo tenha aumentado em uma ordem de magnitude nos últimos anos, a taxa de erro incorrigível permaneceu relativamente constante. Essa taxa é estimada em 10 ^ 14 bits, portanto, um bit por 12 terabytes de leitura, para unidades SATA de consumidor, fonte .

Por que você deve perder o sono na sua matriz RAID 5

Então, isso é apenas 6 passagens de uma nova unidade de 2 TB. Quanto tempo demora para ler 12 TB de dados? Muito menos tempo que o MTBF para essa unidade.

link

O que é mais preocupante é a chance de uma falha de leitura dupla em um array RAID 5 que consiste em unidades grandes. Com um array RAID 5 de 7Tb, a probabilidade de uma segunda falha de leitura durante a reconstrução do RAID é de 50%.

link

    
por 15.06.2009 / 08:53
1

É uma pena que as pessoas pensem que os números do MTBF não se aplicam a sistemas complexos. O problema real (afaik) é que os fabricantes não têm os valores de MTBF para seus módulos de hardware. Estas são figuras que devem, por todos os direitos, estar disponíveis. A Dell afirma que "a Dell não lista mais os MTBF específicos para seus servidores". é realmente atroz! Eles podem também dizer "Bem, nosso material não é realmente confiável o suficiente para ser usado onde um número de MTBF é necessário".

O engenheiro de confiabilidade (ou o cara usando o chapéu do RE) deve limitar o escopo do estudo de disponibilidade. Isso geralmente é limitado aos módulos de hardware.

Quanto à classificação do que constitui uma falha ... Bem, é por isso que realizamos uma análise de FMECA.

Os sistemas seguros são complexos e os modos de falha incluem falhas de software, mas esse não é o escopo do estudo. Queremos números MTBF para hardware. Peça ao seu vendedor para fornecer isso. É sua responsabilidade técnica fornecê-lo a você ... Se eles se recusarem ou fizerem o mesmo, vá a algum lugar que tenha servidores de nível de telecom com números de disponibilidade obrigatórios para hardware.

    
por 21.04.2016 / 08:05
0

Eu tenho visto o MTBF informado em sites de suporte da empresa. Converse com seu vendedor ou SE para obter as informações.

    
por 15.06.2009 / 07:45
0

A meu ver, os números do MTBF se tornaram uma ferramenta de vendas. O hardware moderno atingiu um estado em que os números de MTBF são essencialmente inúteis. Mesmo o mais baixo dos fornecedores de bola baixa está produzindo hardware que sobrevive a qualquer ciclo de atualização sensato. Como você nota, ninguém está relatando números MTBF. Eu acredito que esta é a razão.

    
por 15.06.2009 / 07:38
0

Infelizmente, o MTBF não é uma medida prática ou confiável em servidores modernos. O conceito todo de MTBF é que, se um modelo / configuração específico estiver sendo usado por muitos ao longo do tempo, provavelmente saberemos sua confiabilidade.

Hoje, a maioria de nós felizmente negocia potencial confiabilidade extra para desempenho extra comprovado e eficiência de energia. Por exemplo, você construiria seus novos servidores em hardware de 18 a 24 meses apenas porque provou ser confiável? ou apenas com a última geração de CPUs com mais núcleos, potência e eficiência energética?

Além disso, ao contrário dos sistemas de telefonia da velha escola, os sistemas são bastante personalizados e, claro, altamente dependentes de software. Quão confiável é a versão x.xx do BIOS ou a versão do driver y.yyy? Os mais recentes patches do servidor OS / DB / app aumentam a estabilidade ou têm regressões de estabilidade? Quantos servidores no mundo realmente usam a mesma mistura exata de hardware / versão de pilha que você?

Se você precisar de alta disponibilidade, precisará adicionar redundância ao seu sistema (dual-everything, clustering, hot spares, DRP, o que você tem). Portanto, a confiabilidade relativa de cada componente de hardware normalmente não é um fator significativo, pois você cria sua infraestrutura para sobreviver a falhas de componentes únicos. Apenas viva com a incerteza (a confiabilidade é retroativa) e planeje de acordo.

    
por 15.06.2009 / 08:14
0

Concordo com a maioria das outras respostas: números de MTBF não são úteis para mim e nunca os verifico.

A única exceção são os discos rígidos, mas mesmo assim, eu vejo apenas o MTBF de uma maneira muito bruta, certificando-me de comprar unidades de "classe de servidor" mais confiáveis, se houver uma escolha.

    
por 15.06.2009 / 08:45

Tags