Esperar que alguém um pouco mais experiente possa me indicar na direção certa, por favor!
Tendo problemas com um servidor, acredito que ele possa estar relacionado a qualquer controlador RAID \ backplane \ cables, mas procurando alguns conselhos.
Aqui estão os detalhes -
Servidor - Dell Poweredge R410 Armazenamento - Matriz RAID 1 de 250 GB Controlador RAID - Dell SAS IR / 6 (LSI Logic SAS1068) OS - servidor Ubuntu 14.04 (x64)
Resumo do problema -
Recentemente, o servidor iniciou o kernel panic, exigindo uma reinicialização para restaurar o serviço. Ocasionalmente, ver "rejeitar E / S para dispositivo off-line" registrada na saída do TTY. Eu acredito que o armazenamento subjacente está ficando offline de forma intermitente, às vezes causando o kernel em pânico.
O array RAID é saudável e está em sincronia -
ioc0 vol_id 0 type IM, 2 phy, 232 GB, state OPTIMAL, flags ENABLED
ioc0 phy 1 scsi_id 1 ATA WDC WD2500AAJS-7 3E02, 232 GB, state ONLINE, flags NONE
ioc0 phy 0 scsi_id 8 ATA WDC WD2500JS-75N 2E04, 232 GB, state ONLINE, flags NONE
Ao analisar os diagnósticos SAS, estou vendo o incremento do contador DWORD INVALID ocasionalmente.
Adapter Phy 0: Link Up
Invalid DWord Count 1,962
Running Disparity Error Count 1,772
Loss of DWord Synch Count 0
Phy Reset Problem Count 2
Adapter Phy 1: Link Up
Invalid DWord Count 1,402
Running Disparity Error Count 1,342
Loss of DWord Synch Count 0
Phy Reset Problem Count 0
Eu redefinir essas estatísticas .. após a primeira vez que eu inicializei o servidor desde a redefinição do contador, "Adaptador Phy 1" exibido o seguinte -
Adapter Phy 1: Link Up
Invalid DWord Count 1,402
Running Disparity Error Count 1,342
O adaptador Phy 0 exibiu 0 para as duas contagens.
O servidor está ativo há 4 dias. Verificando os contadores esta manhã, posso ver que as contagens do Adaptador Phy 1 são estáveis, mas a contagem DWORD inválida do Adaptador Phy 0 foi incrementada para -
Adapter Phy 0: Link Up
Invalid DWord Count 1,962
Running Disparity Error Count 1,772
Phy Reset Problem Count 2
Além disso, a contagem de problemas de redefinição do PHY foi incrementada para 2, mas não estou totalmente ciente das implicações disso.
O servidor não está mostrando sinais de mau comportamento no momento, mas por experiência recente é apenas uma questão de tempo antes que o kernel entre em pânico novamente.
A contagem DWORD e a redefinição PHY inválidas podem indicar um problema de cabeamento \ backplane (como o controlador RAID já está sendo substituído) ou há algo mais que eu deva levar em consideração aqui?
Felicidades