Centos e dell PowerEdge Rxxx Series

3

compramos recentemente alguns servidores da Dell todos eles da série Rxxx par de R410 e R710

o sistema operacional que usamos nesses servidores é: CentOS 5.4

estamos recebendo mensagens de erro muito estranhas e perdemos algumas vezes a conectividade de rede (foi necessário reiniciar a interface de rede para corrigi-la)

as mensagens que recebemos são:
Mensagem de syslogd @ em Wed Nov 18 12:07:08 2009 ...
kernel do nome do servidor: Uhhuh. NMI recebida por motivo desconhecido 20.
Mensagem de syslogd @ em Wed Nov 18 12:07:08 2009 ...
kernel servername: Você tem um estranho modo de economia de energia ativado?
Mensagem de syslogd @ em Wed Nov 18 12:07:08 2009 ...
kernel servername: Dazed e confuso, mas tentando continuar

nunca vimos essas mensagens na série anterior de servidores poweredge da Dell

alguém aqui usando o centOS 5.4 na série Rxxx? aconteceu com ele também?

talvez você tenha uma sugestão sobre como evitar que isso aconteça

Atualização:

obrigado pela informação

bem, eu já entrei em contato com a dell ofcourse eles até mudam a placa-mãe em 2 dos nossos servidores

o fato de eu ter visto aquelas estranhas mensagens do sistema operacional em mais de um servidor (um R410 e outro R710) me faz pensar que talvez haja um problema de conflito entre o sistema operacional e o servidor

simplesmente não faz sentido que isso aconteça em mais de um servidor, e mesmo após a substituição da placa-mãe

dell dizem que eles não suportam o centOS, eu fiz o diagnóstico da DSET e enviei para eles, eles não viram nada lá.

todos os fimrwares estão atualizados.

    
por OrenM 03.12.2009 / 10:04

7 respostas

3

a solução foi: opções de eco bnx2 disable_msi = 1 > > /etc/modprobe.conf /etc/init.d/network restart

eu não sei se dell resolveu isso nas últimas atualizações firmwares. mas estou adicionando esses parâmetros a qualquer servidor RXXX que execute o CentOS

    
por 07.10.2010 / 12:49
3

Dê uma olhada no link para uma possível solução.

A solução para pendurar no RHEL5.3 executando o kernel Xen e o driver bnx2 é dada como editando /etc/modprobe.conf adicionando a linha

opções bnx2 "disable_msi = 1"

    
por 03.12.2009 / 12:30
1

Definitivamente, esse é um problema relacionado a hardware. Exceto para verificar se o BIOS do bios e do bmc do servidor está atualizado, entrarei em contato com o suporte da Dell e abra um caso.

Eles provavelmente dirão que o CentOS não é um sistema operacional suportado, mas eles suportam o RHEL5 se ele foi comprado como OEM, e se você puder convencê-los de que as mensagens do kernel estão relacionadas ao hardware, o caso será escalado para suporte de software.

Para acelerar, peça as ferramentas de diagnóstico que eles têm para RHEL, execute-os e envie os relatórios reunidos.

    
por 03.12.2009 / 10:51
0

Você instalou todas as ferramentas personalizadas relevantes da Dell para essa combinação máquina / sistema operacional? Eu acho que é um problema do IPMI onde sua máquina está dizendo ao SO algo que ele não sabe como lidar sem os drivers / ferramentas corretos instalados.

Além disso, tente habilitar ou desabilitar o HPET na sua configuração de bios e / ou no grub.conf.

    
por 03.12.2009 / 10:17
0

obrigado pela informação

bem, eu já entrei em contato com a dell ofcourse eles até mudam a placa-mãe em 2 dos nossos servidores

o fato de eu ter visto aquelas estranhas mensagens do sistema operacional em mais de um servidor (um R410 e outro R710) me faz pensar que talvez haja um problema de conflito entre o sistema operacional e o servidor

simplesmente não faz sentido que isso aconteça em mais de um servidor, e mesmo após a substituição da placa-mãe

dell dizem que eles não suportam o centOS, eu fiz o diagnóstico da DSET e enviei para eles, eles não viram nada lá.

todos os fimrwares estão atualizados.

tem outras informações sobre isso? mais idéias do que devo tentar resolver isso?

Obrigado

    
por 03.12.2009 / 11:33
0

link .

tente o primeiro resultado

    
por 03.12.2009 / 22:16
0

Acabei de passar por um inferno tentando descobrir isso. Depois de substituir um R410 executando o Centos 5.4 por outro, ocorreu exatamente o mesmo problema. As características são:

  • após um período de tempo que varia de um dia a duas semanas, as tentativas de estabelecer conexões TCP com serviços (entrada e ssh de entrada) por meio da placa de rede Broadcom falham com frequência crescente.
  • quando o problema começa, o NIC descarta pacotes
  • se for deixado o tempo suficiente, o NIC pode ficar completamente suspenso
  • Tentativas de conexão TCP não apresentam problemas
  • conexões ativas por meio da NIC não são afetadas, apenas novas tentativas de conexão

Simplesmente parar e iniciar a NIC (ifdown / ifup) irá redefini-la se estiver suspenso, mas é necessário reiniciar a máquina para que ela volte a funcionar sem bloquear as conexões ou descartar pacotes.

Alguém pode confirmar que o sinalizador 'opções bnx2 "disable_msi = 1"' resolve esse problema? Estou relutante em colocar qualquer uma dessas máquinas de volta ao serviço sem alguma garantia.

    
por 01.02.2010 / 18:03

Tags