APEI Erro de hardware genérico: erro PCIe com ATTO SAS HBA

1

Recentemente, atualizamos um servidor remoto para um novo Dell PowerEdge T630 com CPUs duplas (para que todos os slots PCIe estejam ativos). Ele estava funcionando há várias semanas antes de adicionarmos uma unidade de fita IBM LTO5 conectada por meio de um novo HBA ATTO H644 SAS.

O sistema inicializa bem e é estável até a placa ser instalada. Uma vez que a placa é instalada, o POST é bom e, como o kernel do linux está inicializando, nós obtemos:

megasas: INIT adapter done
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: APEI generic hardware error status
{1}[Hardware Error]: severity: 1, fatal
{1}[Hardware Error]: section: 0, severity: 1, fatal
{1}[Hardware Error]: flags: 0x01
{1}[Hardware Error]: primary
{1}[Hardware Error]: section_type: PCIe error
{1}[Hardware Error]: port_type: 4, root port
{1}[Hardware Error]: version: 1.16
{1}[Hardware Error]: command: 0x0547, status: 0x4010
{1}[Hardware Error]: device_id: 0000:00:1c.4
{1}[Hardware Error]: slot: 2
{1}[Hardware Error]: secondary_bus: 0x0b
{1}[Hardware Error]: vendor_id: 0x8086, device_id: 0x8d18
{1}[Hardware Error]: class_code: 000406
{1}[Hardware Error]: bridge: secondary_status: 0x2000, control: 0x0003
{1}[Hardware Error]: aer_status: 0x00000000, aer_mask: 0x00000000
{1}[Hardware Error]: aer_layer=Transaction Layer, aer_agent=Receiver ID
{1}[Hardware Error]: are_uncor_severity: 0x00000000
Kernel panic - not syncing: Fatal hardware error!
Rebooting in 30 seconds..

Estamos executando o kernel 3.5.4 x86_64

Eu tentei o cartão em vários slots no servidor sem reação diferente. Eu também tentei inicializar o último CD ao vivo do Clonezilla com o mesmo resultado.

Estou tentando diagnosticar onde está o problema .... O ID do fornecedor é para a Intel e o ID do dispositivo parece ser para a ponte PCIe (módulo de kernel pcieport), o que me faz pensar que talvez algo na placa-mãe não como o cartão. Mas as telas de postagem do BIOS estão bem e nenhum erro é relatado. O controlador de gerenciamento de placa base da Dell não reporta nenhum erro de hardware.

O servidor é remoto, então atualmente só tenho o slot PCIe desativado no BIOS.

Temos uma placa ATTO H608 que, de acordo com o suporte ATTO, é idêntica, exceto no número de portas SAS internas e externas (644 = 6Gbps, 4 SAS externos, 4 SAS internos; 608 = 6Gbps, 0 SAS externos, 8 SAS interno). Em um dos nossos Dell PowerEdge 2850s mais antigos, o H608 funciona bem no mesmo kernel 3.5.4.

Eu não tenho outro T630 para testar, mas espero ter um T620 de volta no escritório e posso testar a placa H608 nele.

Estou pensando em palha agora ... tentando descobrir se é um problema de cartão, um problema da Dell ou um problema no kernel ... qualquer entrada é apreciada.

Obrigado. - Peter, Peter.

    
por pbrunnen 20.06.2015 / 19:15

1 resposta

0

Temos um problema semelhante com a versão 2.6.32-504 do kernel RH6. Estamos rolando de volta para 2.6.32-431 e parece resolver o problema no ATTO H680. Essa é provavelmente uma solução absurda para o seu kernel 3.5.4, mas achei que poderia apontar você na direção certa.

Na minha pesquisa, encontrei este artigo (no site da ATTO), que diz:

ATTO 6Gb ESAS HBA & Linux kernel 2.6.33

In Linux kernel 2.6.33 and higher, there is now built-in support for the PMC 8001 chip in a driver called pm8001.ko.  If present, this driver will load automatically for the ATTO 6GB HBA and must be removed ("rmmod pm8001") before our driver can be loaded.

As of May 2010, the only Linux distribution currently using this kernel is Fedora Core 12.  If you would like to permanently remove the PMC driver, you can try deleting the built-in driver, which is probably located at: /lib/modules/2.6.33-default/kernel/drivers/scsi/pm8001/pm8001.ko

NOTE: This location may not be valid for all Linux distributions using this kernel version.

Além disso, você pode querer instalar o driver e a ferramenta de configuração para atualizar o firmware no cartão (se aplicável).

    
por 06.08.2015 / 21:49