array 3Ware RAID6 às vezes pendurado. Disco quebrado não detectado?

11

Temos um servidor Debian com controlador RAID de 3 drives 9650SE, com 5 discos RAID6, atuando como host de máquina virtual, tudo Linux. Problemas continuam ocorrendo e suspeito de um disco quebrado não detectado.

Tivemos várias falhas agora em que o host e todos os convidados estão dizendo que o sistema de entrada e saída foi bloqueado por 120 segundos ou mais. Nós suspeitamos de um controlador RAID defeituoso, mas o substituímos por um idêntico com firmware idêntico, o que não o corrigiu. Eu não acho que seria, porque uma segunda matriz RAID1 continuou funcionando corretamente.

Quase uma semana atrás (domingo), quando isso estava acontecendo, a verificação automática estava em 66%. Ontem à noite (sexta-feira de manhã) estava em 67%. Tanto antes como depois da inicialização e ambos durante problemas. Quando desliguei a verificação com tw_cli /c0/u0 stop verify , as coisas voltaram a responder.

Eu suspeito que ficou preso em uma falha de disco em torno de 66%. Uma verificação automática começa no sábado:

# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM

e normalmente seria muito feito até sexta-feira. Vendo como domingo foi 66% e sexta-feira foi de 67%, é improvável que seja coincidência.

'smartctl -a -d 3ware, 0 / dev / twa0' e 'smartctl -t long' (autoteste SMART longo) em todas as unidades não revelaram nenhum erro. Nem tw_cli /c0 show alarms .

Eu suspeito que um disco está quebrado de uma maneira que é difícil de detectar, mas eu tirei cada drive do array um por um, criei um array 'single' dele e o dd'ed cheio de zeros. Nenhum disco mostrou erros.

Ou algum outro conselho?

Editar:

este é o layout:

# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-6    OK             -       -       256K    5587.9    RiW    OFF    
u1    SPARE     OK             -       -       -       1863.01   -      OFF    
u2    RAID-1    OK             -       -       -       1862.63   RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            ST32000542AS        
p1    OK             u0   1.82 TB   SATA  1   -            ST32000542AS        
p2    OK             u0   1.82 TB   SATA  2   -            ST32000542AS        
p3    OK             u0   1.82 TB   SATA  3   -            ST32000542AS        
p4    OK             u0   1.82 TB   SATA  4   -            ST32000542AS        
p5    OK             u1   1.82 TB   SATA  5   -            WDC WD2002FYPS-02W3 
p6    OK             u2   1.82 TB   SATA  6   -            WDC WD2002FYPS-02W3 
p7    OK             u2   1.82 TB   SATA  7   -            WDC WD2002FYPS-02W3 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx

A unidade em questão é u0.

edit2:

tw_cli / c0 mostra que o diag mostra algo interessante (edit3: isso é inofensivo, descobri que é causado por chamar smartctl -a -d 3ware,X /dev/twa0 onde X é uma porta inválida):

QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF

Legacy opcode=0xB1 error=0x10E

E=010E T=14:15:51     : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)

Eu recebo toneladas disso. Eu não tenho ideia do que isso significa. Eu não consigo nem saber qual unidade ou porta é. (edit3: Eu sei agora, é inofensivo).

Dada a minha edição3, volto à estaca zero. Nada indica que um disco está quebrado, exceto que a verificação trava em 66% e faz com que o array seja interrompido, o que às vezes também acontece aleatoriamente. Eu gostaria que a verificação encontrasse a falha ...

    
por Halfgaar 21.06.2013 / 15:04

3 respostas

0

Esse problema pode estar ocorrendo porque um dos discos encontrou um erro de leitura e bloqueou toda a matriz até conseguir realocar o setor ou o controlador RAID presumiu que a unidade estava inativa e inicializa-a fora da matriz, marcando-a como "Degradado" (isso é completamente para o controlador em questão). Isso pode acontecer com frequência se um disco estiver começando a morrer, mas ainda assim passar pelo SMART. A maioria dos discos dos consumidores continuará tentando a leitura para sempre.

Este problema é resolvido em algumas unidades destinadas a RAID usando algo chamado Controle de recuperação de erros . WD chama esse TLER. Do site:

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

Basicamente, ele diz a um disco que, se não puder ler um setor, desistir após x segundos. Isso é ótimo em um RAID, pois os dados podem ser recuperados de outro disco.

Pelo que eu li, o ST32000542AS não implementa nenhuma forma de ERC, então qualquer um deles pode bloquear toda a matriz. O WD2002FYPS de fato implementa o TLER da WD para que eles não causem esse problema.

    
por 31.05.2017 / 18:54
0

Só para ter certeza, qual é a sua versão do firmware?

Houve um problema que eu experimentei - que parece muito com o que você está descrevendo - quando os seguintes requisitos são atendidos:

  • Controlador da série 3ware 96xx
  • RAID 6
  • 256k Stripe Size
  • Versão de firmware < v4.10.00.021 *

No momento, não havia nenhuma correção de firmware disponível, então migrei de 256k para 64k, o que também resolveu o problema. Você poderia tentar como solução alternativa, embora certamente levará dias para ser concluído.

Mais tarde eu tentei o novo firmware (* 4.10.00.021 acho que tinha a correção) com 256k e funcionou como um encanto. 4.10.00.027 é a última versão.

    
por 24.10.2014 / 13:26
0

2 coisas que não foram levantadas até agora:

  1. Este é um controlador SATA RAID? Se assim for, os cabos SATA são propensos ao envelhecimento e substituí-los pode resolver esses problemas facilmente. Na maioria das vezes isso pode ser tentado quando erros de disco, lags, timeouts ocorrem, mas os valores SMART estão todos ok e a unidade passa em todos os autotestes. Infelizmente, encontrar um bom fornecedor de cabos SATA é difícil.
  2. Os controladores
  3. 3Ware RAID são antigos e não suportados nos dias de hoje. Você não obterá atualizações de firmware nem peças sobressalentes. Caso seu controlador morra, o RAID pode ficar irrecuperável sem o controlador E firmware correspondentes. Uma recuperação de dados cara é então necessária.
por 25.10.2018 / 23:32

Tags