Possivelmente um disco rígido de morrer, mas lê, escreve trabalho - não tem certeza sobre entradas de log

3

Recentemente, recebi uma caixa do Linux com problemas com o compartilhamento do Samba - primeiro, não consegui conectar, segundo ls -la mostrou alguns I/O error (perto do que pode ser visto abaixo) sem listagem.

Agora, atualizei totalmente a caixa e, após a atualização, o RAID está OK, todos os dados acessíveis e o Samba funcionou como um encanto. Aparentemente, não salvei os registros anteriores.

Agora, mesmo que tudo funcione, de vez em quando isso aparece no meu journalctl :

kernel: ata4: EH complete
kernel: end_request: I/O error, dev sdc, sector 2839546656
kernel: cdb[0]=0x28: 28 00 a9 40 0b 20 00 00 f0 00
kernel: sd 3:0:0:0: [sdc] CDB:
kernel: ASC=0x47 ASCQ=0x0
kernel: sd 3:0:0:0: [sdc]
kernel:         a9 40 0b a0
kernel:         72 0b 47 00 00 00 00 0c 00 0a 80 00 00 00 00 00
kernel: Descriptor sense data with sense descriptors (in hex):
kernel: Sense Key : 0xb [current] [descriptor]
kernel: sd 3:0:0:0: [sdc]
kernel: Result: hostbyte=0x00 driverbyte=0x08
kernel: sd 3:0:0:0: [sdc]
kernel: ata4.00: configured for UDMA/133
kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 330)
kernel: ata4: hard resetting link
kernel: ata4.00: error: { ICRC ABRT }
kernel: ata4.00: status: { DRDY ERR }
kernel: [145B blob data]
kernel: ata4.00: failed command: READ DMA EXT
kernel: ata4: SError: { UnrecovData 10B8B BadCRC }
kernel: ata4.00: BMDMA stat 0x26
kernel: ata4.00: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x6

smartctl -t extended (S.M.A.R.T. longo (máximo) scan) não diz nada três vezes já.

Por "tudo funciona", quero dizer:

// Read from drive, write to drive.
find > files.txt

// Another read->write.
du -bc > sizes.txt

// 100 GB random writer
dd if=/dev/urandom of=fillerd bs=512 count=209715200

Os arquivos acabam incorruptos, totalmente legíveis.

O que o erro representa? Eu deveria estar preocupado? Como faço para corrigir isso?

    
por joltmode 05.09.2013 / 09:19

3 respostas

5

As entradas de registro salientes são:

  • kernel: ata4.00: erro: {ICRC ABRT}
  • kernel: ata4: erro: {UnrecovData 10B8B BadCRC}

Estas entradas de log indicam que um erro está ocorrendo na interface SATA entre o PC e o HDD. A interface SATA transporta pacotes ATAPI para dados, comandos e relatórios de status que são verificados usando CRC, verificação de redundância cíclica, código.
A mensagem ICRC ABRT indica um evento "Erro de CRC da interface" e o "Comando cancelado". As outras entradas de log são informações auxiliares relacionadas ao comando que foi anulado.
Isso não está relatando um erro relacionado às cabeças ou platters de R / W do HDD, já que os setores são verificados usando ECC, e não CRC mais fraco. Informações mais detalhadas sobre essas mensagens estão em esta página wiki da libata

Veja essa pergunta semelhante em "Drives SATA ou chipset lançando DRDY ERR e ICRC ABRT" , onde a origem do problema foi atribuída ao lado do host da interface SATA e não ao HDD.

Observe que um erro ocasional da interface SATA não é considerado problemático:

   For SATA drives, occasional transmission problems are expected even on
   otherwise pretty healthy systems. No need to worry about it too much
   unless the problem repeats itself a lot.

citada desta postagem no Linux .

smartctl -t extended (S.M.A.R.T. long (maximum) scan) says nothing three times already.

O Extended S.M.A.R.T. teste é um autoteste que é realizado localmente na unidade e, aparentemente, não enfatiza a interface SATA. Portanto, isso não ajuda a resolver o problema, mas reforça a noção de que o problema está na interface, e não na mídia.

Você precisa procurar um diagnóstico de disco ou um exercitador que seja executado a partir do PC host.
Desde o Extended S.M.A.R.T. teste pode, evidentemente, ler todos os setores sem erro, um teste quase idêntico para ler todos os setores e transferir esse setor para o PC através do barramento SATA é:

dd if=/dev/sdc of=/dev/null

Haverá três fontes de falha de hardware na interface SATA:

  • o cabo SATA. por exemplo Minha unidade está morrendo?
    Teste simples : substituir o cabo.
  • interface SATA da placa-mãe.
    Teste : use uma porta SATA diferente ou instale uma interface alternativa, como PCI ou USB para adaptador SATA com um novo cabo.
  • interface SATA da unidade.
    Teste : instale o HDD em outro PC com um novo cabo e verifique se os erros seguem a unidade.

Mas, além de uma falha de hardware para este problema, houve relatos que implicaram o kernel do Linux como a causa de erros de SATA:

Resultado final

Se você só estiver vendo essas ICRC ABRT entradas no registro com uma taxa "tempo a hora" infreqüente, talvez não haja mais um problema. Talvez os problemas originais possam ser atribuídos a alguns problemas do kernel que foram eliminados quando você atualizou o sistema.

Tente usar o sistema e faça o backup com dedicação.

    
por 09.09.2013 / 05:40
1
Independentemente do sistema operacional, eu sempre acho que depois que algo estranho como esse começa a acontecer com um determinado HDD, ele quase certamente irá quebrar dentro dos próximos meses. Se possível, recomendo que você substitua o HDD por um novo. Outros sintomas com um HDD quebrado serão arquivos inutilizáveis que você ainda pode copiar e mover e programas que têm algumas peculiaridades, de repente.

Em um dos meus laptops, o disco rígido estava desligado. O que aconteceu foi que eu pude inicializar o sistema operacional bem, mas de repente as mensagens de erro começaram a aparecer sobre os processos mais estranhos do sistema operacional ao executar ações que funcionavam muito bem um minuto antes - um dos arquivos do sistema operacional era semi-corrompido devido a o disco rígido de ruptura. Depois de substituir o HDD, isso parou completamente e o sistema funcionou bem por 4 anos até o momento.

Você também pode tentar executar um exame completo do S.M.A.R.T. do HDD. Você pode encontrá-los no site do fabricante. A Seagate e a Western Digital, pelo menos, têm uma, mas não tenho certeza se elas estão disponíveis para o Linux. Às vezes, a varredura completa revela uma unidade quebrada, que uma varredura rápida durante o POST não detecta.

Editar: Eu encontrei este para o Linux, mas não tenho experiência pessoal com ele: link

    
por 05.09.2013 / 09:58
0

O seu disco rígido está a caminho (resultado inteligente, não obstante). É possível que seja o controlador, mas o disco rígido é muito mais provável.

    
por 05.09.2013 / 10:27