LSI MegaRAID: o que significa “erro transitório detectado durante a comunicação com PD: -: -: 1” significa?

2

Eu tenho uma placa LSI MegaRAID 9260-16i em execução em um servidor e ela continua registrando o erro

Controller ID: 0 Transient error detected while communicating with PD: -:-:1

Não consigo encontrar nada sobre esta mensagem em qualquer lugar (documentação, google, fóruns etc.). O que esta mensagem significa?

    
por sbrattla 27.02.2013 / 11:21

1 resposta

2

Aparentemente, esse erro ocorreu devido ao tipo de disco usado. O LSI respondeu ao meu ticket de suporte com o seguinte:

the SAMSUNG HD103UJ has not been qualified as a compatible hard drive. The error and subsequent time-out event is caused by a communication issue due to the error reporting mechanism used by desktop-level hard drives, which are not intended for RAID functionality.

Eu não estava ciente de que isso era um problema, mas depois de ter testado mais as coisas, acredito que isso realmente deve ser a raiz da questão. Eu mudei backplanes e cabos SAS sem sucesso, e realizei testes de "stress" no disco virtual do SO (usando discos corporativos da Dell) e no disco DATA (usando discos Samsung de desktop) e somente quando executando o " estresse "teste sobre os discos de dados eu recebi esses erros.

Portanto, suponho que não há outra maneira de contornar esse problema do que comprar discos corporativos, como, por exemplo, o "Western Digital RE Enterprise 2TB", que é suportado pelo LSI. Tanto para tentar reutilizar o hardware.

ATUALIZAÇÃO (11 de março de 2013)

O controlador é executado com 2 matrizes, um RAID1 usando discos corporativos da WD e um RAID6 usando discos da SAMSUNG. Este fim de semana a matriz RAID1 foi degradada. O log foi inundado com a mensagem de erro fornecida em minha postagem original. O estranho é que o array RAID1 usa discos corporativos. Será que realmente existe um problema com um dos discos SAMSUNG no outro array e, em seguida, um dos discos WD é despejado no outro array? Isso parece um comportamento estranho para mim.

ATUALIZAÇÃO (29 de maio de 2015)

Tem sido um tempo desde que eu lidei com este problema. Eu acredito que a causa real estava ligada ao fornecimento de energia. Liguei todos os 4 backplanes ao mesmo conector de energia (usando splitters). Nos picos (no consumo de energia), o disco "cai", pois não é possível fornecer energia suficiente. Eu consertei isso simplesmente dividindo dois conectores de energia em dois backplanes cada.

    
por 08.03.2013 / 16:23

Tags