Tempo médio entre falhas - SSD

31

O Tempo Médio Entre Falhas , ou MTBF, para este SSD está listado como 1,500,000 horas.

Esse é um lote de horas. 1,500,000 horas é aproximadamente 170 anos. Como a invenção desse SSD em particular é pós-Guerra Civil, como eles sabem o que é o MTBF?

Algumas opções que fazem sentido para mim:

  • Newegg tem um erro de digitação
  • A definição de tempo médio entre falhas não é o que eu acho que é
  • Eles estão usando algum tipo de extrapolação estatística para estimar o que o MTBF seria

Pergunta:

Como é obtido o tempo médio entre falhas (MTFB) para SSD / HDDs?

    
por OSE 03.11.2014 / 20:22

5 respostas

32

Os fabricantes de unidades especificam a confiabilidade de seus produtos em termos de duas métricas relacionadas: a taxa de falha anualizada (AFR), que é a porcentagem de unidades de disco em uma população que falha em um teste dimensionado para uma estimativa por ano; e o tempo médio para falha (MTTF).

O AFR de um novo produto é tipicamente estimado com base em testes de vida e de estresse acelerados ou com base em dados de campo de produtos anteriores. O MTTF é estimado como o número de energia em horas por ano dividido pelo AFR. Uma suposição comum para drives em servidores é que eles são ligados 100% do tempo.

link

MTTF de 1,5 milhão de horas parece um pouco plausível.

That would roughly be a test with 1000 drives running for 6 months and 3 drives failing.
The AFR would be (2* 6 months * 3)/(1000 drives)=0.6% annually and the MTTF = 1yr/0.6%=1,460,967 hours or 167 years.

A different way to look at that number is when you have 167 drives and leave them running for a year the manufacturer claims that on average you'll see one drive fail.

Mas eu espero que seja simplesmente a constante taxa de falha mecânica / eletrônica "aleatória".

Supondo que as taxas de falha seguem a curva da banheira , conforme mencionado nos comentários, a equipe de marketing do fabricante pode massagear um pouco os números de confiabilidade, por exemplo, não incluindo DOA'S (unidades mortas na chegada, que passaram no controle de qualidade, mas falham quando o usuário final as instala) e estender a definição DOA para também excluir aquelas no início pico de falha. E como o teste não é realizado por tempo suficiente, você também não verá efeitos de idade.

Acho que o período de garantia é uma indicação melhor de quanto tempo um fabricante realmente espera que um SSD dure!
Isso definitivamente não será medido em décadas ou séculos ...

Associado ao MTBF é a confiabilidade associada ao número finito de ciclos de gravação que as células NAND podem suportar. Uma métrica comum é a capacidade total de gravação, geralmente em TB. Além de outros requisitos de desempenho, é um grande limitador.

Para permitir uma comparação mais conveniente entre marcas diferentes e unidades de tamanho diferente, a resistência à gravação é geralmente convertida em capacidade de gravação diária como uma fração da capacidade do disco.

Assuming that a drive is rated to live as long as it's under warranty:
a 100 GB SSD may have a 3 year warranty and a write capacity 50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Quanto maior esse número, mais adequado é o disco para escrita intensiva IO.
No momento (final de 2014) os SSD's de linha de servidor de valor têm um valor de 0.3-0.8 drive / dia, mid-range está a aumentar constantemente de 1-5 e high-end parece disparar com níveis de resistência de escrita de até 25 * a capacidade de movimentação por dia durante 3-5 anos.

Alguns testes do mundo real mostram que, às vezes, o fornecedor as reclamações podem ser massivamente excedidas, mas direcionar o equipamento para além dos limites do fornecedor nem sempre é uma consideração corporativa ... Em vez disso, compre unidades spec'd corretamente para seus objetivos.

    
por 03.11.2014 / 20:42
19

Infelizmente, o MTBF não é o que a maioria das pessoas pensa ...

  • não é quanto tempo uma unidade individual durará.

    Os fabricantes esperam que seus discos durem tanto quanto a garantia, depois disso não é problema deles. Discos rígidos de discos eletromagnéticos mais antigos ficarão presos após 10 ou mais anos. Os circuitos integrados duram um tempo extremamente longo, mas outros componentes (principalmente capacitores) se desgastam após um número de ciclos um tanto previsível.

  • é quantas dessas unidades você precisaria esperar que uma unidade falhasse em cada hora.

    Como outros apontaram, os fabricantes fazem vários testes em um período de tempo razoável e determinam uma taxa de falha. Há uma quantidade razoável de variação nesses tipos de testes e o marketing geralmente tem "informações" sobre qual deve ser o número final. Independente de como eles fazem um esforço melhor, adivinhe quantas unidades seriam necessárias para calcular a média de uma falha por hora.

    Para situações com menos unidades, é possível inferir uma probabilidade estatística de falha com base no MTBF, mas lembre-se de que falhas em produtos bem projetados devem seguir uma curva "banheira" - taxas de falhas mais altas quando os dispositivos são inicialmente colocados serviço e após o término do período de garantia, com taxas de falha menores entre elas.

por 03.11.2014 / 20:42
2

Eles vêm de uma avaliação estatística baseada em um tamanho de amostra pequeno e em um curto período de tempo. Não há realmente nenhum método ou processo universalmente acordado, então é realmente apenas 'marketing' bobo.

Este artigo pode explicar um pouco mais. E Wikipedia tem algumas fórmulas que podem ser o que você está procurando?

Essencialmente, para quase tudo (incluindo máquinas domésticas gerais como lava-louças) vários produtos são executados por um período de tempo X. Quantas falhas ocorrem durante este período são usadas para calcular o MTFB.

É claro que não é viável executar produtos por todo um ciclo de vida, ou seja, SSDs, que duram muito tempo. Eles são limitados principalmente pela quantidade de gravações em vez de falha mecânica (que é o que o MTFB serve)

    
por 03.11.2014 / 20:48
1

As más notícias sobre o MTBF são que os métodos comuns de avaliação supõem carga de gravação distribuída uniformemente entre todas as células NAND. Mas as células são agrupadas nos clusters e quando uma única célula falha - todo o cluster é marcado como morto e é substituído por um novo da reserva. Normalmente, a reserva é de cerca de 20% do volume do SSD. Quando a reserva estiver esgotada, o SSD inteiro será marcado como morto.

O IRL SSD contém dados persistentes e voláteis. Imagine que você tenha 90% do SSD preenchido com dados estáticos e os 10% restantes estejam sob a pesada carga de gravação. O controlador SSD distribui a carga entre os clusters livres disponíveis. Esses 10% esgotam sua vida útil 10 vezes mais rápido do que você estimou. Eles serão substituídos da reserva de novo e de novo até o final.

No pior dos casos em que a quantidade de dados persistentes / voláteis é 30: 1 ou maior, por exemplo - pilha de fotos e banco de dados relativamente pequeno para sites populares, seu SSD vai morrer em um ano.

Um de meus clientes ficou muito impressionado com as características do SSD e insistiu em equipar seu servidor DBMS com um par deles. Nos próximos 12 meses, substituímos os dois por duas vezes.

Mas, de acordo com a vida útil dos materiais de marketing, o SSD é de 170 anos. Claro.

    
por 07.12.2014 / 02:06
0

O MTBF não é relevante para medir a resistência do disco SSD, pois o SSD não é sensível pelo tempo em si, como o HDD giratório comum, mas pelo número de reescritas para células SSD. Mais medida relevante para o SSD é o Drive Writes Per Day (DWPD) . Por exemplo, alguns discos SSD de classe empresarial com 3,2 TB de resistência seriam 3 DWPD por 5 anos.

Algumas vezes, o fornecedor de SSD oferece resistência em termos de Terabytes gravados (TBW) ou "Ciclos de gravação", que podem ser facilmente convertidos em DWPD e vice-versa, com tempo e taxa de transferência máximos para a unidade SSD especificada.

Para o exemplo dado com o drive SSD de 3,2 TB:
TBW = DriveSize * Years * DWPD;
TBW = 3,2TB * 5 * 365 * 3d = 17520 TB por 5 anos

Se a unidade fornecer um rendimento de gravação sustentável de 80 MByte por segundo, então WriteCycles = DWPD * Years;
WriteCycles = 3 * 365 * 5 = 5475 ciclos de gravação totais para o disco fornecido

O que é importante notar é que estamos calculando o pior caso se você fornecer 100% de taxa de transferência de utilização para a unidade (o que, muito provavelmente, não é possível).

    
por 20.02.2017 / 10:23