Isenção de responsabilidade: Estou administrando um cluster antigo com informações muito limitadas - sou o décimo estudante de pós-graduação para lidar com a manutenção diária e não sou especialista em HPC, hardware ou software. Eu uso esse cluster para executar o código que desenvolvi e soluciono problemas apenas quando necessário. A documentação é limitada principalmente ao sistema de gerenciamento de cluster de propriedades específicas do cluster (Scyld), e não estamos mais na garantia, portanto, chamar o suporte técnico é um último recurso, pois seria cobrado (a academia recomenda strongmente isso).
Problema: Um dos nós deste cluster não será inicializado, causando o seguinte erro durante a inicialização:
Node1: Dram ECC requested but not enabled
Node1: No DQS Receiver Enable pass window found
Node1: DQS Rcvr En pass window too small (far right of dynamic range)
DQS-DQ passing window too small
Press F1 to Resume
Ao apertar F1, o nó é reinicializado e volta para isso. Isso me faz pensar que há um erro de memória (leia-se: hardware). Eu abri o BIOS, e toda a memória aparece - mas existem 5 itens no log de eventos (postados na parte inferior). Tenho a sensação de que esses códigos podem me direcionar para o erro - especificamente se eu tiver um stick morto de DIMM ou algo pior.
Tentativas de correção: Cada nó do cluster contém 2 processadores AMD Opteron Quad-Core 2350, e cada processador possui seus próprios bancos de memória de 8 slots. Atualmente, cada banco tem 4 sticks de DIMM instalados nos slots 1-4. Eu tentei recolocar o DIMM, inverter a ordem do DIMM, colocar o DIMM nos slots 5-8 e trocar os bancos nos quais o DIMM reside para ver se isso poderia me permitir isolar qualquer problema - sem sucesso.
Encontrei algumas informações sobre os códigos de erro da SEL (aqui), e isso parece um tanto esperançoso - mas os códigos não são exatamente os mesmos e, portanto, não posso confiar totalmente neles.
Resolução desejada: descubra o significado desses códigos SEL, identifique o problema (e esperemos) corrigi-lo e inicialize o nó. Mesmo restringindo-o a um problema de DIMM, CPU ruim ou qualquer coisa seria útil.
Obrigado!
Outras informações que podem ou não ser úteis: O sistema é um cluster da Penguin com 32 nós, com cada nó idêntico (descrito em detalhes acima). Está rodando o CentOS 4.6. É um cluster de beowulf usado para simulações computacionais altamente paralelas, usando MPI para reunir / dispersar processos para nós.
Registro de eventos do sistema:
SEL Entry Number [1]
SEL Record ID: 0001
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:01:52
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: C1
Event Sensor Number: 81
Event Dir Type: 70
Event Data: A0 01 07
SEL Entry Number [2]
SEL Record ID: 0002
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:03
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 08 41
SEL Entry Number [3]
SEL Record ID: 0003
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:03
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0B 41
SEL Entry Number [4]
SEL Record ID: 0004
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:04
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0D 41
SEL Entry Number [5]
SEL Record ID: 0005
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:04
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0F 41
memory event-log cluster