Confirme se o disco está quebrado quando passa em todos os diagnósticos

4

Eu tenho um sistema com um disco potencialmente quebrado, mas o disco passa por todos os tipos de diagnósticos. Eu não consegui confirmar que o disco está quebrado. Quais são minhas opções?

Eu poderia apenas substituir o disco, mas como essa situação é muito semelhante a outra situação mais severa que eu tenho (longa história), eu gostaria de fazer um diagnóstico adequado ao invés de um hardware aleatório.

A questão e a história são as seguintes:

  1. Eu tinha um PC Debian Linux (500 MHz P3) atuando como roteador, nagios e munin.
  2. Ele caiu a cada duas semanas. Nenhum log ou dmesg pode ser obtido (porque é um Compaq antigo que só é inicializado quando você o configura como sem teclado, tornando impossível conectar um teclado mais tarde, uma vez inicializado, impossível).
  3. Na época, acabei de substituir o computador por outro Compaq (P4 2.4 GHz) porque achei que o hardware estava com defeito. No entanto, ainda caiu a cada duas semanas.
  4. a diferença é que neste computador, eu ainda posso usar o SSH nele. Dá todos os tipos de erros no hda.

Gostaria de confirmar que o disco está quebrado, mas nada que eu faça confirma isso:

  1. Os registros de erros da SMART não mostram erros. Normalmente, quando um disco começa a agir, SMART meu passe, mas ainda registra um erro de leitura no log de erros.
  2. O autoteste
  3. SMART ( smartctl -t long /dev/sda ) é concluído sem erros.
  4. A contagem de setor reatribuída
  5. (um parâmetro do tell-tale) durou 31 anos, mesmo quando o disco ainda estava em uso no meu PC de mesa anos atrás, e ainda é. A figura nunca mudou.
  6. dd if=/dev/sda of=/dev/null bs=4096 passa com cores voadores.

O que mais posso fazer para avaliar a integridade da unidade?

Mais uma vez, não se trata de tornar esse roteador totalmente funcional novamente, essa é uma questão forense de disco, porque acontece que tenho outro servidor que potencialmente tem o mesmo problema e saber que a resposta para isso possivelmente me ajudará muito.

Para o registro, abaixo estão os logs e tal.

Esta é a smartctl -a output:

smartctl 5.40 2010-07-12 r3124 [i686-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.7 and 7200.7 Plus family
Device Model:     ST3120026A
Serial Number:    5JT1CLQM
Firmware Version: 3.06
User Capacity:    120,034,123,776 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   6
ATA Standard is:  ATA/ATAPI-6 T13 1410D revision 2
Local Time is:    Mon Jul  1 21:18:33 2013 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (  24) The self-test routine was aborted by
                    the host.
Total time to complete Offline 
data collection:         ( 430) seconds.
Offline data collection
capabilities:            (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    No General Purpose Logging support.
Short self-test routine 
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    (  85) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   050   046   006    Pre-fail  Always       -       47766662
  3 Spin_Up_Time            0x0003   097   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       10
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       31
  7 Seek_Error_Rate         0x000f   084   060   030    Pre-fail  Always       -       820305
  9 Power_On_Hours          0x0032   048   048   000    Old_age   Always       -       46373
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       605
194 Temperature_Celsius     0x0022   036   065   000    Old_age   Always       -       36
195 Hardware_ECC_Recovered  0x001a   050   046   000    Old_age   Always       -       47766662
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   196   000    Old_age   Always       -       6
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 Data_Address_Mark_Errs  0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Aborted by host               80%     46361         -
# 2  Extended offline    Completed without error       00%     46358         -
# 3  Short offline       Completed without error       00%     12046         -
# 4  Extended offline    Completed without error       00%     10472         -
# 5  Short offline       Completed without error       00%     10471         -
# 6  Short offline       Completed without error       00%     10471         -
# 7  Short offline       Completed without error       00%      6770         -
# 8  Extended offline    Aborted by host               90%      5958         -
# 9  Extended offline    Aborted by host               90%      5951         -
#10  Short offline       Completed without error       00%      5024         -
#11  Extended offline    Aborted by host               80%      5024         -
#12  Short offline       Completed without error       00%      3697         -
#13  Short offline       Completed without error       00%       237         -
#14  Short offline       Completed without error       00%       145         -
#15  Short offline       Completed without error       00%        69         -
#16  Extended offline    Completed without error       00%        68         -
#17  Short offline       Completed without error       00%        66         -
#18  Short offline       Completed without error       00%        49         -
#19  Short offline       Completed without error       00%        29         -
#20  Short offline       Completed without error       00%        29         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

E este é o erro do dmesg quando ele caiu (o que se repete para vários setores diferentes):

[1755091.211136] sd 0:0:0:0: [sda] Unhandled error code
[1755091.211144] sd 0:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[1755091.211151] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 08 fe ad 38 00 00 08 00
[1755091.211166] end_request: I/O error, dev sda, sector 150908216
    
por Halfgaar 01.07.2013 / 21:27

3 respostas

3

Você não pode confiavelmente.

Ou melhor, você já fez isso com as opções à sua disposição.

Como um estudo em Google descobriu , os discos com falha não mostram necessariamente valores SMART anormais (o contrário também é mais confiável: quando o fazem, eles falharão ).

Mantendo isso de lado por um momento, tenha em mente que, embora um monte seja padronizado na computação, na realidade existem erros tanto no hardware quanto no software, margens de erro que podem se acumular, etc. O mundo real não é Não é perfeito, e não é invisível que os discos rígidos não funcionem bem com determinados controladores - e o contrário. Às vezes é uma questão de um firmware defeituoso, algumas vezes alguns componentes do sistema completamente diferentes não se comportando, por exemplo, uma PSU sub-par que vomita em picos de carga específicos. Ou até mudanças de temperatura, idade ... a lista poderia ser expandida quase à vontade.

Portanto, o procedimento padrão aqui é colocar o disco em uma configuração do sistema significativamente diferente e executar novamente os testes - mas, como você já fez isso com a mudança completa do sistema, concluiu corretamente que o disco deve estar em culpa. ( A menos que você não mude todo o resto como você nos disse - Cabo / HBA vem à mente, caso em que a suposição não seria verdadeira).

Edit: Acabei de perceber que ainda resta uma opção; Você pode pesquisar se há revisões de firmware mais recentes disponíveis para esta unidade de disco do que o que está atualmente em sua unidade específica. Em caso afirmativo, você pode dar uma olhada no log de alterações apontando possíveis problemas no seu caso.

Em conclusão, para estabelecer com total confiança (nesta situação particular!) que o drive está se comportando mal, você precisará enviá-lo de volta para o fabricante.

    
por 01.07.2013 / 21:59
1

Estou achando que isso é um mau controlador. Você pode fazer mais algumas coisas para verificar o disco, bem como o controlador ...

Execute 'badblocks' na unidade. Isso é semelhante ao 'dd' que você executou. Tome outra unidade que tenha um bom status SMART e coloque-a no computador. Se esse disco der a você um comportamento semelhante, você saberá que é um hardware diferente do disco que está causando problemas. Nesse caso, eu acho que é o controlador. Você mencionou que você mudou de sistema e que ele ainda estava lhe dando problemas, então, depois de tudo dito e feito, eu ainda pensaria que deveria haver um componente comum que estava causando a instabilidade do sistema. Você também pode ver:

  1. cabo defeituoso (o cabo foi trocado para a segunda máquina com a unidade?)
  2. configuração incorreta nos sistemas (você está configurando o sistema da mesma forma com diferentes hw?)
por 01.07.2013 / 21:46
0

O SF criou esta questão porque era "notável", por isso não queria deixar de fora novos conhecimentos, nomeadamente diskscan . Ele lê o disco e representa graficamente a latência de setores, supondo que setores quebrados precisem de novas tentativas.

Este é o resultado de um disco da Seagate em que eu passei por todos os testes tradicionais:

Vocêpodeverqueexistemalgumasregiõesdelatênciamuitoalta,oqueobviamenteéumproblema.

Eoutrodisco,umdigitalocidental:

Curiosamente,apósumapagamentocomdd,ostatusSMARTfoiOKnovamente:nãohásetorespendentesourealocados.Estafoianovaexecuçãosubseqüentedediskscan:

Então este disco WDC estava bom novamente, supostamente. Eu corri um smartctl -t long sobre ele e, em seguida, mostrou uma falha de leitura no disco novamente.

Conclusão: diskscan ajuda, mas é claro que nada é 100% confiável.

    
por 13.11.2018 / 11:01