HDD e SSD Linux: link de reinicialização

2

minha configuração atual de armazenamento consiste em dois HDDs tradicionais e dois SSDs na minha caixa Linux, cada um com seu próprio array RAID 1, que é criptografado via luks. Eu tenho uma história, em vez de uma pergunta concreta.

Há mais de um ano, eu recebi aleatoriamente erros de "link de reinicialização forçada" no log do kernel de algumas das minhas unidades. Eu iria RMA o problema drive e os novos drives causariam o problema para parar. Alguns meses depois, eu acabaria voltando a ver o mesmo erro em momentos aparentemente aleatórios. A unidade seria marcada como falhada no RAID e não apareceria mais em fdisk -l . Eu iria reiniciar o computador e a unidade iria aparecer novamente e eu poderia voltar a adicionar ao array e seria reconstruir. Mais cedo ou mais tarde, esse problema aconteceria novamente, geralmente algumas horas depois.

Cerca de seis meses atrás, substituí dois discos rígidos tradicionais por SSDs na esperança de que eles não tivessem uma taxa de falhas tão alta quanto as unidades tradicionais. No entanto, ao longo dos últimos dias, comecei a ter problemas com um dos novos SSDs e com um dos drives tradicionais.

Estou começando a ver um padrão surgir. Eu recebo um novo drive, alguns meses depois eu começo a ter problemas com ele. Eu sempre achei que era devido ao HDD ter uma alta taxa de falhas, mas agora está acontecendo com SSD, então eu estou pensando que não é culpa da unidade. O que mais poderia ser problema? Eu tive vários sistemas operacionais instalados desde que comecei a ter o problema, então eu quero excluir um problema de software. Isso deixa os cabos SATA ou a placa-mãe. A criptografia de disco poderia colocar muita pressão nas unidades? Existe alguma coisa que eu possa fazer para determinar mais informações? Obrigado como sempre.

Abaixo está a saída dmesg do problema de uma pergunta que fiz há alguns meses quando estava com o mesmo problema.

[43161.734107] ata3: ATA_REG 0x41 ERR_REG 0x84
[43161.734110] ata3: tag : dhfis dmafis sdbfis sactive
[43161.734113] ata3: tag 0x0: 1 1 0 1  
[43161.734123] ata3.00: exception Emask 0x1 SAct 0x1 SErr 0x180000 action 0x6 frozen
[43161.734127] ata3.00: Ata error. fis:0x21
[43161.734130] ata3: SError: { 10B8B Dispar }
[43161.734134] ata3.00: failed command: READ FPDMA QUEUED
[43161.734142] ata3.00: cmd 60/08:00:a8:03:00/00:00:00:00:00/40 tag 0 ncq 4096 in
[43161.734144]          res 41/84:04:a8:03:00/84:00:00:00:00/40 Emask 0x10 (ATA bus error)
[43161.734148] ata3.00: status: { DRDY ERR }
[43161.734150] ata3.00: error: { ICRC ABRT }
[43161.734155] ata3: hard resetting link
[43161.734158] ata3: nv: skipping hardreset on occupied port
[43162.220095] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43162.260202] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43162.260206] ata3.00: revalidation failed (errno=-19)
[43162.260211] ata3.00: limiting speed to UDMA/133:PIO2
[43167.220123] ata3: hard resetting link
[43167.220127] ata3: nv: skipping hardreset on occupied port
[43167.710060] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43167.750228] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43167.750232] ata3.00: revalidation failed (errno=-19)
[43167.750236] ata3.00: disabled
[43172.710100] ata3: hard resetting link
[43173.620110] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43173.640455] ata3.00: failed to IDENTIFY (INIT_DEV_PARAMS failed, err_mask=0x80)
[43178.620116] ata3: hard resetting link
[43179.530113] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43179.550748] ata3.00: ATA-8: WDC WD2002FAEX-007BA0, 05.01D05, max UDMA/133
[43179.550753] ata3.00: 3907029168 sectors, multi 16: LBA48 NCQ (depth 31/32)
[43179.570208] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43179.570213] ata3.00: revalidation failed (errno=-19)
[43179.570220] ata3: limiting SATA link speed to 1.5 Gbps
[43179.570224] ata3.00: limiting speed to UDMA/133:PIO3
[43184.530066] ata3: hard resetting link
[43184.530070] ata3: nv: skipping hardreset on occupied port
[43185.020091] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43185.060949] ata3.00: configured for UDMA/133
[43185.060969] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[43185.060974] sd 2:0:0:0: [sdd]  Sense Key : Aborted Command [current] [descriptor]
[43185.060980] Descriptor sense data with sense descriptors (in hex):
[43185.060983]         72 0b 47 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
[43185.060995]         00 00 03 a8 
[43185.061000] sd 2:0:0:0: [sdd]  Add. Sense: Scsi parity error
[43185.061006] sd 2:0:0:0: [sdd] CDB: Read(10): 28 00 00 00 03 a8 00 00 08 00
[43185.061017] end_request: I/O error, dev sdd, sector 936
[43185.061023] Buffer I/O error on device sdd, logical block 117
[43185.061044] sd 2:0:0:0: rejecting I/O to offline device
[43185.061048] sd 2:0:0:0: killing request
[43185.061062] ata3: EH complete
[43185.061075] sd 2:0:0:0: rejecting I/O to offline device
[43185.061123] sd 2:0:0:0: rejecting I/O to offline device
[43185.061134] sd 2:0:0:0: rejecting I/O to offline device
[43185.061140] sd 2:0:0:0: rejecting I/O to offline device
[43185.061145] sd 2:0:0:0: [sdd] READ CAPACITY(16) failed
[43185.061147] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061152] sd 2:0:0:0: [sdd] Sense not available.
[43185.061155] sd 2:0:0:0: rejecting I/O to offline device
[43185.061166] sd 2:0:0:0: rejecting I/O to offline device
[43185.061175] sd 2:0:0:0: rejecting I/O to offline device
[43185.061185] sd 2:0:0:0: rejecting I/O to offline device
[43185.061193] sd 2:0:0:0: rejecting I/O to offline device
[43185.061198] sd 2:0:0:0: [sdd] READ CAPACITY failed
[43185.061202] sd 2:0:0:0: rejecting I/O to offline device
[43185.061209] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061215] sd 2:0:0:0: [sdd] Sense not available.
[43185.061226] sd 2:0:0:0: rejecting I/O to offline device
[43185.061235] sd 2:0:0:0: rejecting I/O to offline device
[43185.061245] sd 2:0:0:0: rejecting I/O to offline device
[43185.061254] sd 2:0:0:0: rejecting I/O to offline device
[43185.061263] sd 2:0:0:0: rejecting I/O to offline device
[43185.061274] sd 2:0:0:0: rejecting I/O to offline device
[43185.061280] sd 2:0:0:0: [sdd] Asking for cache data failed
[43185.061283] sd 2:0:0:0: [sdd] Assuming drive cache: write through
[43185.061289] sdd: detected capacity change from 2000398934016 to 0
[43185.061610] ata3.00: detaching (SCSI 2:0:0:0)
[43185.062444] sd 2:0:0:0: [sdd] Stopping disk
[43249.120042] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[43249.120046] ata4.00: failed command: FLUSH CACHE EXT
[43249.120051] ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[43249.120052]          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[43249.120054] ata4.00: status: { DRDY }
[43249.120059] ata4: hard resetting link
[43249.120060] ata4: nv: skipping hardreset on occupied port
[43249.610042] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43249.650323] ata4.00: configured for UDMA/133
[43249.650326] ata4.00: retrying FLUSH 0xea Emask 0x4
[43249.650452] ata4.00: device reported invalid CHS sector 0
[43249.650458] ata4: EH complete
    
por shanet 22.08.2012 / 04:16

2 respostas

3

Você tem uma pergunta aqui. Eu acho (se entendi corretamente) qual é o processo para determinar o que está causando essa falha?

Sou engenheiro de segurança de rede. Então entenda que estou me encolhendo enquanto digito isso. Elimine isso como um problema de criptografia. Descriptografe as unidades e veja se você ainda tem o problema. A desvantagem é que você precisará usá-los por vários meses descriptografados.

Os cabos são um teste simples (e você deve começar primeiro). Troque-os, mas eu tenho dificuldade em acreditar que é o problema, a menos que você tenha luzes de néon dentro do seu caso.

Isso deixa a mobo. Se não são os outros dois ...

Tenho certeza de que alguém entrará em contato se discordar da minha solução de problemas. Não é caro alterar os cabos e desativar a criptografia temporariamente é um risco de segurança que somente você pode determinar se está disposto a aceitar.

    
por 22.08.2012 / 04:23
2

Parece que você tem muitos erros no seu link SATA. Como resultado, o host não pode obter comandos de maneira confiável no link e, quando isso ocorre, às vezes, os dados retornados são corrompidos.

Você vê que nas mensagens a velocidade é limitada ou que o identificador de unidade esperado não foi recebido. Você também está vendo mensagens confusas de diferentes camadas do driver que não refletem necessariamente o que está acontecendo no nível de hardware do SATA. Por exemplo, "limitar a velocidade a UDMA / 133: PIO3" aplica-se estritamente apenas a drives ATA paralelos (apenas significa que o driver está tentando uma velocidade de interface mais lenta para ver se os erros desaparecem), mas as mensagens de erro indicam claramente que nível que realmente lida com o hardware entende que está falando com uma unidade SATA.

Seu pensamento de que pode ser os cabos SATA é bom. Tente substituí-los e verifique se eles são classificados para SATA 3.0 Gb / s (também chamados de "SATA 2" ou "SATA II"). Eu não acho que suas unidades são o problema. Por que demora vários meses para os erros aparecerem depois que você substitui a unidade? Talvez os cabos estejam se soltando de alguma forma e substituí-los. Ou talvez seja apenas uma chance aleatória.

    
por 11.09.2013 / 01:14