Informações sobre códigos de erro da SEL

1

Isenção de responsabilidade: Estou administrando um cluster antigo com informações muito limitadas - sou o décimo estudante de pós-graduação para lidar com a manutenção diária e não sou especialista em HPC, hardware ou software. Eu uso esse cluster para executar o código que desenvolvi e soluciono problemas apenas quando necessário. A documentação é limitada principalmente ao sistema de gerenciamento de cluster de propriedades específicas do cluster (Scyld), e não estamos mais na garantia, portanto, chamar o suporte técnico é um último recurso, pois seria cobrado (a academia recomenda strongmente isso).

Problema: Um dos nós deste cluster não será inicializado, causando o seguinte erro durante a inicialização:

Node1: Dram ECC requested but not enabled
Node1: No DQS Receiver Enable pass window found
Node1: DQS Rcvr En pass window too small (far right of dynamic range)
DQS-DQ passing window too small
Press F1 to Resume

Ao apertar F1, o nó é reinicializado e volta para isso. Isso me faz pensar que há um erro de memória (leia-se: hardware). Eu abri o BIOS, e toda a memória aparece - mas existem 5 itens no log de eventos (postados na parte inferior). Tenho a sensação de que esses códigos podem me direcionar para o erro - especificamente se eu tiver um stick morto de DIMM ou algo pior.

Tentativas de correção: Cada nó do cluster contém 2 processadores AMD Opteron Quad-Core 2350, e cada processador possui seus próprios bancos de memória de 8 slots. Atualmente, cada banco tem 4 sticks de DIMM instalados nos slots 1-4. Eu tentei recolocar o DIMM, inverter a ordem do DIMM, colocar o DIMM nos slots 5-8 e trocar os bancos nos quais o DIMM reside para ver se isso poderia me permitir isolar qualquer problema - sem sucesso.

Encontrei algumas informações sobre os códigos de erro da SEL (aqui), e isso parece um tanto esperançoso - mas os códigos não são exatamente os mesmos e, portanto, não posso confiar totalmente neles.

Resolução desejada: descubra o significado desses códigos SEL, identifique o problema (e esperemos) corrigi-lo e inicialize o nó. Mesmo restringindo-o a um problema de DIMM, CPU ruim ou qualquer coisa seria útil.

Obrigado!

Outras informações que podem ou não ser úteis: O sistema é um cluster da Penguin com 32 nós, com cada nó idêntico (descrito em detalhes acima). Está rodando o CentOS 4.6. É um cluster de beowulf usado para simulações computacionais altamente paralelas, usando MPI para reunir / dispersar processos para nós.

Registro de eventos do sistema:

SEL Entry Number            [1]
SEL Record ID:              0001
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:01:52
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          C1
Event Sensor Number:            81
Event Dir Type:             70
Event Data:                 A0 01 07

SEL Entry Number            [2]
SEL Record ID:              0002
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:03
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 08 41

SEL Entry Number            [3]
SEL Record ID:              0003
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:03
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 0B 41

SEL Entry Number            [4]
SEL Record ID:              0004
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:04
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 0D 41

SEL Entry Number            [5]
SEL Record ID:              0005
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:04
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 0F 41
memory event-log cluster
    
por Matt 22.09.2016 / 19:51

0 respostas