Temos um servidor Debian com controlador RAID de 3 drives 9650SE, com 5 discos RAID6, atuando como host de máquina virtual, tudo Linux. Problemas continuam ocorrendo e suspeito de um disco quebrado não detectado.
Tivemos várias falhas agora em que o host e todos os convidados estão dizendo que o sistema de entrada e saída foi bloqueado por 120 segundos ou mais. Nós suspeitamos de um controlador RAID defeituoso, mas o substituímos por um idêntico com firmware idêntico, o que não o corrigiu. Eu não acho que seria, porque uma segunda matriz RAID1 continuou funcionando corretamente.
Quase uma semana atrás (domingo), quando isso estava acontecendo, a verificação automática estava em 66%. Ontem à noite (sexta-feira de manhã) estava em 67%. Tanto antes como depois da inicialização e ambos durante problemas. Quando desliguei a verificação com tw_cli /c0/u0 stop verify
, as coisas voltaram a responder.
Eu suspeito que ficou preso em uma falha de disco em torno de 66%. Uma verificação automática começa no sábado:
# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM
e normalmente seria muito feito até sexta-feira. Vendo como domingo foi 66% e sexta-feira foi de 67%, é improvável que seja coincidência.
'smartctl -a -d 3ware, 0 / dev / twa0' e 'smartctl -t long' (autoteste SMART longo) em todas as unidades não revelaram nenhum erro. Nem tw_cli /c0 show alarms
.
Eu suspeito que um disco está quebrado de uma maneira que é difícil de detectar, mas eu tirei cada drive do array um por um, criei um array 'single' dele e o dd'ed cheio de zeros. Nenhum disco mostrou erros.
Ou algum outro conselho?
Editar:
este é o layout:
# tw_cli /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 256K 5587.9 RiW OFF
u1 SPARE OK - - - 1863.01 - OFF
u2 RAID-1 OK - - - 1862.63 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - ST32000542AS
p1 OK u0 1.82 TB SATA 1 - ST32000542AS
p2 OK u0 1.82 TB SATA 2 - ST32000542AS
p3 OK u0 1.82 TB SATA 3 - ST32000542AS
p4 OK u0 1.82 TB SATA 4 - ST32000542AS
p5 OK u1 1.82 TB SATA 5 - WDC WD2002FYPS-02W3
p6 OK u2 1.82 TB SATA 6 - WDC WD2002FYPS-02W3
p7 OK u2 1.82 TB SATA 7 - WDC WD2002FYPS-02W3
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 0 xx-xxx-xxxx
A unidade em questão é u0.
edit2:
tw_cli / c0 mostra que o diag mostra algo interessante (edit3: isso é inofensivo, descobri que é causado por chamar smartctl -a -d 3ware,X /dev/twa0
onde X é uma porta inválida):
QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF
Legacy opcode=0xB1 error=0x10E
E=010E T=14:15:51 : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)
Eu recebo toneladas disso. Eu não tenho ideia do que isso significa. Eu não consigo nem saber qual unidade ou porta é. (edit3: Eu sei agora, é inofensivo).
Dada a minha edição3, volto à estaca zero. Nada indica que um disco está quebrado, exceto que a verificação trava em 66% e faz com que o array seja interrompido, o que às vezes também acontece aleatoriamente. Eu gostaria que a verificação encontrasse a falha ...