Mean Time to Failure (MTTF): Quando os fabricantes de discos publicam isto, como você deve interpretar seus números?

9

O tempo médio de falha (MTTF) é geralmente dado em termos de horas, e fazendo alguns cálculos, parece que um disco deve falhar somente após um bom número de anos ter passado. / p>

Parece que os discos precisam de reparos com mais frequência do que isso. Alguém sabe por que isso acontece?

Eu percebi que há algo suspeito nessa métrica. Estou interpretando algo errado aqui?

    
por Kaitlyn Mcmordie 25.10.2011 / 05:02

4 respostas

14

Primeiro:

MTTF = Mean Time To Failure
MTTR = Mean Time To Repair
MTBF = Mean Time Between Failures = MTTF + MTTR

O MTBF é frequentemente mais ou menos igual ao MTTF, uma vez que o reparo pode levar uma hora e o MTTF pode ser de dezenas de milhares de horas. Mas também o MTBF muitas vezes não é aplicável, uma vez que os produtos defeituosos não são reparados, mas simplesmente substituídos, porque o reparo custa mais do que a substituição.

O cálculo de MTTF é um método estatístico complexo que envolve calcular as chances de falha em cada parte individual. E não é uma coisa linear, como as pessoas às vezes presumem. Se você tiver um MTTF de 1.000.000 horas, isso não significa que, em 1.000 dispositivos, haverá uma falha após 1.000 horas ou que você obterá uma falha em 1.000.000 de dispositivos após 1 hora.
Muitos dispositivos eletrônicos seguem a "curva da banheira" ,

onde há muitas falhas no início, depois de muito tempo com quase nenhuma falha, e perto do final da vida o número de falhas aumenta novamente. Nos discos rígidos existem também algumas partes mecânicas que possuem uma curva de falha mais linear; isso lentamente aumenta a partir do dia 1.

Se o fabricante disser, por exemplo, MTTF de 1000 000 horas (na maioria das vezes POH ou Power-On Hours), significa que em média a unidade deve durar > 100 anos. Algumas unidades duram mais, algumas falharão mais cedo. Portanto, apesar das 1000 000 horas, é perfeitamente possível ter uma falha após 1000 horas. Uma vez eu tive uma falha de carro dentro de uma semana, e então você tem que pensar na curva da banheira. A unidade de substituição está girando alegremente por > 50k horas.

    
por 25.10.2011 / 10:19
4

Se um equipamento tiver um MTBF de uso de 1.000.000 horas, isso não significa que qualquer peça de equipamento possa durar 1.000.000 horas. Significa, grosso modo, que se 1.000.000 de equipamentos que estão dentro de sua vida nominal de serviço forem operados por uma hora, ou 100.000 operados por dez horas (mas ainda dentro da vida útil nominal), ou 60.000.000 por um minuto, etc. haverá aproximadamente uma falha no lote. Observe que a vida útil estimada do serviço é inteiramente ortogonal ao MTBF. Considere os dois tipos de widgets a seguir:

  1. Cada widget, independentemente da idade, tem 0,1% de chance de falhar a cada hora.
  2. De cada bilhão de widgets, todos, exceto um, operarão precisamente por 61 minutos e depois morrerão; aquele morrerá depois de 30 minutos; os widgets têm uma vida útil especificada de 60 minutos.

O primeiro tipo de widget teria uma duração média de cerca de 1.000 horas e também um MTBF de cerca de 1.000 horas. O segundo teria uma duração média de 61 minutos, mas um MTBF de 1.000.000.000 horas dentro da sua vida útil. Embora pareça estranho dizer que o segundo dispositivo tem um MTBF que é quase bilhões de vezes maior que o tempo de vida esperado, o MTBF não é uma figura sem sentido.

Suponha que alguém realize uma experiência que exija que 1.000.000 dispositivos funcionem perfeitamente por uma hora, após o que todos serão descartados. Se algum dispositivo falhar, toda a experiência será arruinada. O que seria mais útil - um dispositivo que dura em média 1.000 horas, mas tem um MTBF de apenas 1.000 horas, ou um dispositivo que duraria no máximo 61 minutos, mas teria apenas uma chance em 1 bilhão de falhar conhecer essa marca?

    
por 25.10.2011 / 17:11
2

Acrescentando a resposta de stevenvh: Todos os fabricantes de discos bem conhecidos fazem um burn-in de novos dispositivos, assim como fabricantes de componentes eletrônicos. Em discos rígidos, não existe apenas um MTBF e MTTF geral, mas também estatísticas individuais de falhas para os blocos do discos. Em outras palavras: Algumas partes da rotação, "platter" no disco pode falhar, enquanto a maioria ainda lê / escreve ok. Os chamados "setores defeituosos" podem ser detectados e depois mapeados pelo firmware dentro da unidade.

Todos os drives hoje contêm setores adicionais na reserva, que podem ser usados no lugar dos setores defeituosos. Isso é simplesmente uma precaução do fabricante: se eles não fizessem isso, eles não poderiam vender o disco na capacidade proclamada. Se eles acumularem um x% adicional de setores ocultos como reserva, eles aumentarão o custo em alguns < x%, mas atingem um rendimento global de produção muito maior.

Os discos hoje mantêm uma contagem de setores defeituosos que também podem ser lidos com software apropriado. Este e outros parâmetros de integridade do disco (por exemplo, temperatura) são chamados de valores SMART .

Agora, uma vez que o fabricante tenha feito o teste de burn-in da unidade, e alguns dos setores tenham quase falhado e tenham sido remapeados pelo firmware interno da unidade, o parâmetro SMART "Bad Sector Count" é definido como 0 Em seguida, a unidade é entregue aos clientes.

Normalmente, após o processo de burn-in, o início da curva da banheira que já foi mencionado não é mais visto pelo cliente. Temos sorte e só vemos um aumento na probabilidade de falha ao longo do tempo.

Então, se você olhar para o MTTF que é citado pelo fabricante, para qualquer modelagem de falha que você queira fazer, você pode desconsiderar o início da curva da banheira.

    
por 25.10.2011 / 17:29
-2

Você deve interpretar isso como marketing. Eles na verdade não sabem MTBF exato (Tempo médio entre falhas), então eles usam vários truques para estimar isto, e eles mostram números mais altos para campanhas de 'empresa' para justificar seu custo.

Na realidade, é lucrativo para os fabricantes de HDD que seus HDDs falhem logo após o término da garantia.

Como uma teoria da conspiração, eu acredito que a falha em massa do Seagate 7200.11 foi um erro na implementação da 'morte programada', fazendo com que os discos falhem antes que a garantia termine, então eles tiveram que 'consertar' isso pela atualização do firmware.

    
por 25.10.2011 / 06:44