Recentemente, atualizamos um servidor remoto para um novo Dell PowerEdge T630 com CPUs duplas (para que todos os slots PCIe estejam ativos). Ele estava funcionando há várias semanas antes de adicionarmos uma unidade de fita IBM LTO5 conectada por meio de um novo HBA ATTO H644 SAS.
O sistema inicializa bem e é estável até a placa ser instalada. Uma vez que a placa é instalada, o POST é bom e, como o kernel do linux está inicializando, nós obtemos:
megasas: INIT adapter done
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: APEI generic hardware error status
{1}[Hardware Error]: severity: 1, fatal
{1}[Hardware Error]: section: 0, severity: 1, fatal
{1}[Hardware Error]: flags: 0x01
{1}[Hardware Error]: primary
{1}[Hardware Error]: section_type: PCIe error
{1}[Hardware Error]: port_type: 4, root port
{1}[Hardware Error]: version: 1.16
{1}[Hardware Error]: command: 0x0547, status: 0x4010
{1}[Hardware Error]: device_id: 0000:00:1c.4
{1}[Hardware Error]: slot: 2
{1}[Hardware Error]: secondary_bus: 0x0b
{1}[Hardware Error]: vendor_id: 0x8086, device_id: 0x8d18
{1}[Hardware Error]: class_code: 000406
{1}[Hardware Error]: bridge: secondary_status: 0x2000, control: 0x0003
{1}[Hardware Error]: aer_status: 0x00000000, aer_mask: 0x00000000
{1}[Hardware Error]: aer_layer=Transaction Layer, aer_agent=Receiver ID
{1}[Hardware Error]: are_uncor_severity: 0x00000000
Kernel panic - not syncing: Fatal hardware error!
Rebooting in 30 seconds..
Estamos executando o kernel 3.5.4 x86_64
Eu tentei o cartão em vários slots no servidor sem reação diferente. Eu também tentei inicializar o último CD ao vivo do Clonezilla com o mesmo resultado.
Estou tentando diagnosticar onde está o problema .... O ID do fornecedor é para a Intel e o ID do dispositivo parece ser para a ponte PCIe (módulo de kernel pcieport), o que me faz pensar que talvez algo na placa-mãe não como o cartão. Mas as telas de postagem do BIOS estão bem e nenhum erro é relatado. O controlador de gerenciamento de placa base da Dell não reporta nenhum erro de hardware.
O servidor é remoto, então atualmente só tenho o slot PCIe desativado no BIOS.
Temos uma placa ATTO H608 que, de acordo com o suporte ATTO, é idêntica, exceto no número de portas SAS internas e externas (644 = 6Gbps, 4 SAS externos, 4 SAS internos; 608 = 6Gbps, 0 SAS externos, 8 SAS interno). Em um dos nossos Dell PowerEdge 2850s mais antigos, o H608 funciona bem no mesmo kernel 3.5.4.
Eu não tenho outro T630 para testar, mas espero ter um T620 de volta no escritório e posso testar a placa H608 nele.
Estou pensando em palha agora ... tentando descobrir se é um problema de cartão, um problema da Dell ou um problema no kernel ... qualquer entrada é apreciada.
Obrigado. - Peter, Peter.