Este é um erro crítico de RAID?

7

Se eu fizer o seguinte

/opt/MegaRAID/MegaCli/MegaCli -LDInfo -Lall -aAll -NoLog  > /tmp/tmp
/opt/MegaRAID/MegaCli/MegaCli -LDPDInfo     -aAll -NoLog >> /tmp/tmp

então vejo esses erros

Media Error Count: 11
Other Error Count: 5

Pergunta

O que eles querem dizer? Eles são críticos?

Saída completa:

Adapter 0 -- Virtual Drive Information:
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default


Adapter #0

Number of Virtual Disks: 1
Virtual Disk: 0 (target id: 0)
Name:Virtual Disk 0
RAID Level: Primary-5, Secondary-0, RAID Level Qualifier-3
Size:951296MB
State: Optimal
Stripe Size: 64kB
Number Of Drives:5
Span Depth:1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Access Policy: Read/Write
Disk Cache Policy: Disk's Default
Number of Spans: 1
Span: 0 - Number of PDs: 5
PD: 0 Information
Enclosure Device ID: N/A
Slot Number: 0
Device Id: 0
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000000000000
Connected Port Number: 0 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9523610

PD: 1 Information
Enclosure Device ID: N/A
Slot Number: 1
Device Id: 1
Sequence Number: 2
Media Error Count: 11
Other Error Count: 5
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000001000000
Connected Port Number: 1 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9507278

PD: 2 Information
Enclosure Device ID: N/A
Slot Number: 2
Device Id: 2
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000002000000
Connected Port Number: 2 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9504713

PD: 3 Information
Enclosure Device ID: N/A
Slot Number: 3
Device Id: 3
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000003000000
Connected Port Number: 3 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9503028

PD: 4 Information
Enclosure Device ID: N/A
Slot Number: 4
Device Id: 4
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 238418MB [0x1d1a94a2 Sectors]
Non Coerced Size: 237906MB [0x1d0a94a2 Sectors]
Coerced Size: 237824MB [0x1d080000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000004000000
Connected Port Number: 4 
Inquiry Data: ATA     WDC WD2500JS-75N2E04     WD-WCANK9503793
    
por Sandra 16.08.2011 / 09:51

4 respostas

10

Você tem problemas com o drive no slot 1. É o RAID 5, portanto, seus dados estão protegidos, mas você perdeu a redundância (um disco não é confiável). Erro de mídia significa que a unidade fica sem setores sobressalentes para remapear setores defeituosos para ( link link ). Se fossem meus dados, eu seria duplamente escrupuloso ao fazer o backup, removendo a unidade, substituindo-a por uma nova e sincronizando a matriz. Alguns fornecedores (por exemplo, IBM) aceitam RMA com base em indicadores de falha preditiva, outros não. Se o seu fornecedor não aceitar um disco com setores defeituosos e não remaparáveis como defeituosos, retire-o da matriz e faça um exercício em um sistema de teste. Deve falhar em tempo razoável.

Editar:

Os eventos de mídia foram diferentes de zero apenas para o disco com ID de slot 1. No log que você forneceu, há um ID de slot para cada entrada. O estranho é que o ataque relata seu estado como ótimo, apesar dos erros de mídia no disco. Ainda assim, eu não confiaria no disco.

O RAID 5 feito com n discos do mesmo tamanho dá a você a capacidade de discos (n-1), porque armazena um valor de dados de redundância de discos. Portanto, se você tiver seis discos de 250 GB e 1T de espaço utilizável, eles provavelmente estarão divididos em 5 discos RAID 5 (que oferece 4 x 250 GB de espaço utilizável) mais 1 disco reserva.

    
por 16.08.2011 / 10:30
5

na verdade smartctl pode fornecer informações detalhadas sobre cada disco no MegaRaid raid. para obter informações sobre o disco físico # 0, execute:

smartctl -a -d megaraid,0 /dev/sda|less

como Pawel corretamente aponta muito provavelmente, são setores realocados, mas eu tive poucos casos quando problemas de comunicação [visíveis em smartctl -l xerro -d megaraid, 5 / dev / sda] foram reportados como Contagem de erros de mídia .

    
por 16.08.2011 / 21:30
2

Desde que sua matriz esteja ativa e funcionando, tudo ficará bem. O contador de erros de mídia pode aumentar a partir de eventos como uma realocação de setor com falha em uma das unidades, enquanto o contador de outros erros pode ser aumentado por qualquer evento não problemático (redefinição do dispositivo de barramento, ciclo de energia, etc.). No entanto, se o erro for crítico, a unidade será retirada automaticamente da matriz pelo controlador e relatada como com falha; nesse caso, você terá que realizar uma ação.

Seria ótimo se o smartctl fosse capaz de fornecer informações SMART detalhadas sobre o megaraid e o status das unidades individuais, mas não acredito que seja compatível. Experimente, por precaução.

    
por 16.08.2011 / 10:06
0

Às vezes, as unidades geram erros de leitura e, na minha experiência, geralmente quando isso acontece, posso executar "badblocks" para testar a unidade e a unidade pode relatar alguns erros no início, mas depois que a unidade tiver sido sublinhou um pouco ou continuará relatando erros, caso em que é ruim, ou não reportará erros.

Eu percebi que isso era devido a alguns setores da unidade serem marginais, e o remapeamento badblock só pode ser ativado quando você está gravando no disco, não lendo a partir dele. Se você gravar dados em um setor que está ruim, a unidade deve relatar um erro ao lê-lo, porque se ele apenas remapear silenciosamente esse setor para um dos setores sobressalentes, ele retornará dados inválidos em vez de um erro. Mas em uma gravação, se perceber que o setor é ruim, ele pode gravar esses dados em um setor sobressalente e remapá-lo.

Infelizmente, não é possível limpar essa contagem de erros, portanto, se você tiver um monitoramento que relata erros de mídia, será necessário substituir a unidade ou torná-la para que o monitoramento possa ignorar isso ou muitos erros e apenas relatar quando muda de novo.

Você pode verificar o status da unidade SMART com o smartctl (obrigado, @pQd, eu não sabia disso) com:

MegaCli64 -PDList  -aALL | grep -e '^$' -e Slot -e Count
#  Find the slot number to use for "X".
#  For "Y" use the device name the system knows, such as "sda".
smartctl -a -d megaraid,X /dev/sdY

Provavelmente não é totalmente irracional reconstruir a unidade e ver se ela continua a ter problemas. Com o MegaRAID, você pode fazer isso com estes comandos:

#  WARNING: Make sure the array is "Optimal" first, this will degrade it.
MegaCli64 -LDInfo -Lall -aALL | grep State
#  NOTE: This assumes drive 3 of enclosure 32 for adapter 0
MegaCli64 -PDOffline -PhysDrv [32:3] -a0
MegaCli64 -PDRbld -Start -PhysDrv [32:3] -a0

#  Now check the rebuild status until it completes:
MegaCli64 -PDRbld -ShowProg -PhysDrv [32:3] -a0

# And the array status should go back to Optimal
MegaCli64 -LDInfo -Lall -aALL | grep State

Eu costumava ter unidades de disco fora da matriz RAID o tempo todo (talvez uma vez a cada mês ou dois, através de uma amostra de 100 a 200 unidades). Mas as unidades não estavam aparecendo tão ruins depois que eu as substituí.

Eu comecei a gravar em todas as unidades antes de colocá-las em produção, usando "badblocks" por cerca de uma semana, e depois que comecei a fazer isso, o número dessas desistências reduziu drasticamente. Agora isso acontece talvez duas vezes por ano, em 500 unidades.

Este é um teste destrutivo, portanto, verifique se você não tem dados na unidade:

badblocks -svw -p 5 /dev/sdX

O "sdX" é o dispositivo para testar. Tenha muito cuidado aqui, escolher a unidade errada destruirá seus dados . Eu corro meus testes em uma máquina autônoma no meu testbench.

    
por 08.10.2013 / 18:23