O servidor congela completamente em condições desconhecidas

1

Recentemente, montei um servidor para virtualização. O problema não é detectado na instalação. Quando eu implantei aplicativos (com base no openstack no Ubuntu 12.04), o servidor congela em tempo aleatório (geralmente de 10 a 40 horas). Ele poderia sobreviver a um teste de estresse extremo, o que significa que não há problema de temperatura. É interessante que quando o kernel usou quase toda a memória para o buffer (eu tentei usar o dd), o sistema está quase congelado e não pode receber nenhuma conexão de rede de entrada, mas ainda permanece conectado. De acordo com as aplicações manuais, sempre deve ser possível alocar memória do buffer, se não houver outra memória livre.

Além disso, tentei descobrir algo do syslog, mas há muito do kernel

UPDATE

Depois de alguma espera, recebi algumas informações úteis. O servidor não travou após a atualização do kernel, mas deixou algo.

Jan 24 19:38:25 shisoft-vmhost kernel: [ 5083.584670] sbridge: HANDLING MCE MEMORY ERROR
Jan 24 19:38:25 shisoft-vmhost kernel: [ 5083.751554] EDAC MC0: 2 CE memory read error on CPU_SrcID#0_Channel#1_DIMM#0 (channel:1 slot:0 page:0xc8b77d offset:0x40 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 channel_mask:1 rank:1)

Parece um problema de memória, alguma ideia?

    
por Shisoft 23.01.2014 / 11:17

1 resposta

2

A RAM no servidor é ruim: canal: 1 slot: 0, que é provavelmente o primeiro stick no segundo canal.

    
por 24.01.2014 / 22:09

Tags