Ubuntu 9.10 Network Bonding - morre aleatoriamente

2

Eu fiquei sem ideias com esse problema, então achei que uma pergunta do SF pode ajudar.

Temos vários servidores Ubuntu 9.10 que mudamos recentemente de NICs individuais para NICs vinculados usando ligação de rede de kernel padrão.

Esta configuração funciona como planejado (e como já foi feito no passado para várias máquinas Linux), no entanto, algumas caixas simplesmente caem das horas de rede depois de ativar a ligação.

As caixas literalmente param de responder na rede, no entanto, um simples /etc/init.d/networking restart via KVM traz a conexão de volta online.

Meu primeiro pensamento foi ao longo das linhas que 1) a conexão upstream parou, 2) algo local na caixa explodiu a configuração de rede (por exemplo, network-manager), ou 3) a ligação caiu de alguma forma.

No entanto, eu rapidamente bati em uma parede tentando investigar isso em todos os quatro servidores.

  • O evento não está registrado localmente em qualquer um dos servidores (/ var / log / *, dmesg, etc). Eu esperava ver um alterar no status do link ou similar.

  • O upstream muda tudo centralmente syslog, que também registrou nenhuma mudança em estado de rede, nem MAC flapping.

  • / proc / net / bonding / bond0 não relatou problemas

  • Não consigo ver nada nos moldes do gerenciador de rede em execução.

As únicas coisas registradas são a alteração na causa do estado da rede, executando a reinicialização do serviço.

Originalmente usamos mode = 0 (ativo-ativo), mas com a sugestão de que estava causando confusão na rede com os MACs presentes em dois lugares, mudamos para mode = 1 (ativo-espera) - isso não fez diferença e os servidores falharam novamente algumas horas depois.

É como se a rede apenas "parasse". Alguma idéia pessoal?

Configuração

/etc/modprobe.d/bonding.conf

alias bond0 bonding
options bonding mode=0 miimon=100

/ etc / network / interfaces

auto bond0
iface bond0 inet static
address 192.168.1.10
gateway 192.168.1.1
netmask 255.255.255.0
slaves eth0 eth1
up /sbin/ifenslave bond0 eth0 eth1
down /sbin/ifenslave -d bond0 eth0 eth1

auto eth0
iface eth0 inet manual

auto eth1
iface eth1 inet manual
    
por Coops 02.06.2011 / 13:00

1 resposta

0

Você deu muito pouca informação para ajudar a depurar.

  • Qual opção você está usando?
  • Quais NICs você está usando?
  • Qual Kernel você está usando?
  • Você seguiu os documentos do Ubuntu e removeu o network-manager? link

Desde que você diz "algum" trabalho.

  • Você verificou diferenças na configuração?
  • As falhas só acontecem em portas de switch específicas?
  • Os sistemas que funcionam têm o mesmo hardware, kernel, NIC, configuração, etc.?
  • Você pode "forçar" o erro? Tente cargas pesadas, pacotes grandes, pacotes ruins, etc., para tentar acionar o erro sob demanda.

O Ubuntu teve falhas de rede aleatórias em kernels "ruins" em configurações específicas, mesmo sem ligação. Tente um kernel alternativo, assumindo que o kernel existente corresponde a um sistema que está funcionando.

Dependendo do modo de comutador e ligação usado, até mesmo uma única falha de NIC pode fazer com que a conexão seja interrompida. Tente uma ponte transparente de canal duplo com analisador de pacotes para determinar a última NIC usada antes da falha. Além disso, observe o último tipo de pacote, sinalizadores, retransmissões, etc. enviados no cabo antes da falha.

Melhor palpite sem informações - kernel defeituoso ou hardware defeituoso. O Ubuntu não seria a primeira escolha para um sistema operacional de servidor. O Ubuntu é direcionado para usuários novatos de Linux. O Ubuntu atual tem como alvo usuários de Netbook. Ubu é uma boa seleção para desktop devido à sua popularidade - fóruns maiores, mais drivers de hardware orientados a desktop, mais aplicativos de desktop. O Debian e o Centos / RHEL têm bases de instalação maiores no uso de produção "crítica" para servidores Linux.

    
por 03.06.2011 / 03:36