Problema de armazenamento - Contagem DWORD inválida - como solucionar problemas

1

Esperar que alguém um pouco mais experiente possa me indicar na direção certa, por favor!

Tendo problemas com um servidor, acredito que ele possa estar relacionado a qualquer controlador RAID \ backplane \ cables, mas procurando alguns conselhos.

Aqui estão os detalhes -

Servidor - Dell Poweredge R410 Armazenamento - Matriz RAID 1 de 250 GB Controlador RAID - Dell SAS IR / 6 (LSI Logic SAS1068) OS - servidor Ubuntu 14.04 (x64)

Resumo do problema -

Recentemente, o servidor iniciou o kernel panic, exigindo uma reinicialização para restaurar o serviço. Ocasionalmente, ver "rejeitar E / S para dispositivo off-line" registrada na saída do TTY. Eu acredito que o armazenamento subjacente está ficando offline de forma intermitente, às vezes causando o kernel em pânico.

O array RAID é saudável e está em sincronia -

ioc0 vol_id 0 type IM, 2 phy, 232 GB, state OPTIMAL, flags ENABLED
ioc0 phy 1 scsi_id 1 ATA      WDC WD2500AAJS-7 3E02, 232 GB, state ONLINE, flags NONE
ioc0 phy 0 scsi_id 8 ATA      WDC WD2500JS-75N 2E04, 232 GB, state ONLINE, flags NONE

Ao analisar os diagnósticos SAS, estou vendo o incremento do contador DWORD INVALID ocasionalmente.

Adapter Phy 0:  Link Up
  Invalid DWord Count                                       1,962
  Running Disparity Error Count                             1,772
  Loss of DWord Synch Count                                     0
  Phy Reset Problem Count                                       2

Adapter Phy 1:  Link Up
  Invalid DWord Count                                       1,402
  Running Disparity Error Count                             1,342
  Loss of DWord Synch Count                                     0
  Phy Reset Problem Count                                       0

Eu redefinir essas estatísticas .. após a primeira vez que eu inicializei o servidor desde a redefinição do contador, "Adaptador Phy 1" exibido o seguinte -

Adapter Phy 1:  Link Up
  Invalid DWord Count                                       1,402
  Running Disparity Error Count                             1,342

O adaptador Phy 0 exibiu 0 para as duas contagens.

O servidor está ativo há 4 dias. Verificando os contadores esta manhã, posso ver que as contagens do Adaptador Phy 1 são estáveis, mas a contagem DWORD inválida do Adaptador Phy 0 foi incrementada para -

Adapter Phy 0:  Link Up
  Invalid DWord Count                                       1,962
  Running Disparity Error Count                             1,772
  Phy Reset Problem Count                                       2

Além disso, a contagem de problemas de redefinição do PHY foi incrementada para 2, mas não estou totalmente ciente das implicações disso.

O servidor não está mostrando sinais de mau comportamento no momento, mas por experiência recente é apenas uma questão de tempo antes que o kernel entre em pânico novamente.

A contagem DWORD e a redefinição PHY inválidas podem indicar um problema de cabeamento \ backplane (como o controlador RAID já está sendo substituído) ou há algo mais que eu deva levar em consideração aqui?

Felicidades

    
por lechuck 29.05.2017 / 12:01

0 respostas