Existe uma boa ferramenta de teste de tortura?

16

Ultimamente tenho tido uma estranha e rara corrupção no sistema de arquivos que suspeito que seja culpa do meu SSD. Eu estou procurando uma boa ferramenta de teste de tortura de unidade. Algo que pode gravar em todo o disco, depois voltar e lê-lo procurando por gravações voadoras, blocos corrompidos, blocos revertidos para revisões mais antigas e outros erros. Isso seria muito mais do que o que badblocks faz. Existe tal ferramenta?

Não estou procurando por um benchmark de desempenho e já verifiquei o status SMART; diz saudável e nenhum bloco ruim foi reportado.

    
por psusi 16.04.2013 / 01:43

4 respostas

8

Pode ser um exagero, mas há Phoronix Test Suite . Há também bonnie++ , bem como hdparm .

Eu geralmente uso hdparm , por exemplo:

% hdparm -Tt /dev/hdb
/dev/hdb:
 Timing buffer-cache reads:   128 MB in  1.25 seconds =102.40 MB/sec
 Timing buffered disk reads:  64 MB in 16.70 seconds =  3.83 MB/sec

Eu não chamaria hdparm de um teste de tortura, mas ele dá uma ideia aproximada do desempenho geral de uma unidade.

Determinando a integridade de uma unidade

Depois de torturar a unidade, você pode usar este comando para verificar o estado geral da unidade:

% sudo udisks --dump | grep -A 24 Updates
 Attribute       Current|Worst|Threshold  Status   Value       Type     Updates
===============================================================================
 raw-read-error-rate         103| 99| 34   good    5854752     Pre-fail Online 
 spin-up-time                100| 99|  0    n/a    0           Pre-fail Online 
 start-stop-count             98| 98| 20   good    2785        Old-age  Online 
 reallocated-sector-count    100|100| 36   good    0 sectors   Pre-fail Online 
 seek-error-rate              72| 60| 30   good    25872884688 Pre-fail Online 
 power-on-hours               89| 89|  0    n/a    424.4 days  Old-age  Online 
 spin-retry-count            100|100| 97   good    0           Pre-fail Online 
 power-cycle-count            98| 98| 20   good    2753        Old-age  Online 
 attribute-184               100|100| 99   good    0           Old-age  Online 
 reported-uncorrect          100|100|  0    n/a    0 sectors   Old-age  Online 
 attribute-188               100| 96|  0    n/a    0           Old-age  Online 
 high-fly-writes             100|100|  0    n/a    0           Old-age  Online 
 airflow-temperature-celsius  58| 42| 45 FAIL_PAST 42C / 108F  Old-age  Online 
 g-sense-error-rate          100|100|  0    n/a    124         Old-age  Online 
 power-off-retract-count     100|100|  0    n/a    15          Old-age  Online 
 load-cycle-count              1|  1|  0    n/a    248327      Old-age  Online 
 temperature-celsius-2        42| 58|  0    n/a    42C / 108F  Old-age  Online 
 hardware-ecc-recovered       45| 38|  0    n/a    5854752     Old-age  Online 
 reallocated-event-count      89| 89| 30   good    14877766723263 Pre-fail Online 
 current-pending-sector      100|100|  0    n/a    0 sectors   Old-age  Online 
 offline-uncorrectable       100|100|  0    n/a    0 sectors   Old-age  Offline
 udma-crc-error-count        200|200|  0    n/a    0           Old-age  Online 
 attribute-254               100|100|  0    n/a    0           Old-age  Online 

Ferramentas de integridade / manutenção de disco

Tivemos um bom sucesso usando as duas ferramentas a seguir, nas quais eu trabalho. HDAT2 & Spinrite . O último é uma ferramenta comercial, mas o primeiro, o HDAT2, é um projeto de código aberto.

Aqui estão algumas capturas de tela do HDAT2:

Você precisa reinicializar o sistema em ambos para que fique off-line enquanto executa essas operações, mas ambos recuperaram unidades que falharam ou estavam começando a exibir falhas. A interface do usuário no HDAT2 é um pouco difícil de navegar, geralmente usamos as opções padrão para a maior parte e tentamos não desviar muito de lá.

    
por 16.04.2013 / 02:49
4

Bonnie ++ vem à mente:

Então, dependendo da configuração de hardware da sua caixa:

bonnie++ -d /path/to/mounted/ssd -r your-system-ram-size-in-MB

Exemplo:

# For a 32GB system with the SSD formatted and mounted at /mnt/mounted-ssd-001
bonnie++ -d /mnt/mounted-ssd-001 -r 32000

Deve dar ao seu dispositivo um bom teste de estresse. Você pode personalizá-lo também.

Note que, com um SSD, quando um bloco ruim acontece, ele pode ser remapeado automaticamente pelo hardware da unidade, dependendo da unidade com a qual você está trabalhando. Além disso, um teste de tortura corrói a vida útil do seu SSD. Então, use a seu próprio critério.

EDITAR:

Adicionando uma nota sobre falhas de SSD, uma vez que foi apontado que Bonnie ++ testa os testes, mas não rastreia erros. A maneira como os SSDs "remapear os bad blocks" é diferente da maneira como os discos rígidos fazem o remapeamento. Como isso depende depende de qual marca / marca / modelo de SSD você tem:

  • SSD (s) barato (s) simplesmente falham, porque não têm capacidade extra para remapear ou porque não possuem meios de segregar os blocos de memória flash com falha. Eles só vão desligar ou ficar off-line e não voltarão a ficar on-line.
  • SSD (s) intermediário (s) sem capacidade sobressalente podem gerar alertas do Smartd ou, talvez, até mesmo gerar erros do dispositivo de bloco no nível do SO quando um bloco com falha for detectado. No entanto, quando a falha acontecer, o tamanho registrado do SSD será alterado. Isso pode resultar em um erro e o dispositivo ser colocado off-line pelo sistema operacional ou pode resultar na suspensão do dispositivo e na necessidade de ser retirado e reinserido para que ele seja reconhecido novamente. Ao se registrar novamente, o tamanho de bloco disponível do dispositivo será reduzido.
  • SSD (s) high end com capacidade excedente remapearão os blocos defeituosos nos bastidores e poderão gerar alertas / avisos no nível do sistema operacional. Quando a capacidade sobressalente se esgotar, o dispositivo provavelmente falhará ao longo das linhas do (s) SSD (s) Midrange.

Quando o SSD se redimensiona devido a isolamento de blocos defeituosos, pode ser necessário fazer o seguinte para reativar a unidade, se o firmware da unidade não fizer automaticamente as atualizações adequadas:

link

A menos que a ferramenta de teste de estresse e registro de erros seja especificamente projetada com SSD (s), você está usando apenas a vida útil do dispositivo.

EDITAR:

Com base nas informações das respostas acima, sugira a substituição do cabo por um melhor ou a substituição da unidade (substituição de RMA / Garantia), pois esse tipo de erro no nível do sistema de arquivos do sistema operacional não é normal.

Além disso, se sua unidade oferecer suporte, você poderá aumentar a quantidade de espaço reservado para erros de manipulação:

link

    
por 16.04.2013 / 02:45
2

Eu entendo que isso tem mais de um ano, mas para o benefício de quem ler o tópico no futuro, espero que o software que você precisa (d) ainda não exista fora do HP Labs:

"Entendendo a robustez dos SSDs sob falha de energia" link

Substituindo a injeção de falha de energia por um evento de escolha (ou nada, no caso de detectar erros de firmware intermitentes), e parece que este software o detectaria. Infelizmente, não acho que haja uma alternativa, do contrário presumivelmente a HP não teria escrito algo internamente.

É uma pena, já que eu também precisava de algo assim para provar problemas no ambiente virtual; onde eu suspeito que as gravações comprometidas não foram realmente enviadas para o disco físico. Seria ótimo poder enfatizar o teste da pilha de armazenamento assim, não apenas necessariamente SSDs. Eu ainda tenho que encontrar algo adequado.

    
por 25.11.2014 / 15:55
1

Use a ferramenta de teste do fabricante, é a melhor maneira de testar um HD, pois ele pode acessar os testes de baixo nível, remapear setores defeituosos, testar todo o status de saúde inteligente (especialmente para um SSD, existem muitos registros desconhecidos a maioria de nós, mas pode ajudar o criador a ver o status do disco rígido)

hirensCD tem muitas ferramentas de teste, mas eu acho que não foi atualizado para SSD, então verifique diretamente o site do fabricante. Alguns suportam linux, outros podem requerer um liveCD do Windows (verifique o hirenCd novamente) ou arrancar a partir de um pendrive (freedos, SO especial, etc)

A maioria das ferramentas HD mais antigas não é boa para testar SSD, já que um setor nunca está nos mesmos locais, é dinamicamente mapeado pelo firmware para espalhar as gravações por toda a unidade. Então, se eles escrevem testes, você está apenas gravando ciclos de gravação em vez de realmente testar o disco.

Os testes de leitura não queimam o SSD, mas também podem não testar todos os setores SSD, novamente porque o firmware oculta o layout real.

    
por 16.04.2013 / 13:50

Tags