falha na ligação da NIC do Linux; carga de CPU estranha

3

Observação: uma atualização foi adicionada abaixo

Estou tendo um problema muito estranho com um servidor Linux ( Debian 6.0.6 ) usando 802.3ad NIC bonding. Ocasionalmente, todas as NICs do vínculo são marcadas como inativas e o processo events é executado com 100% de utilização da CPU em um único encadeamento. Nada pode ser feito para trazer o vínculo de volta para além de reiniciar o servidor; então tudo volta ao normal.

A NIC em uso é um Intel VT Quad Port Server Adapter e todas as quatro portas estão ligadas. 802.3ad foi ativado corretamente no comutador (um Comutador Inteligente Netgear) e funciona corretamente.

Nada está aparecendo nos logs após a reinicialização, embora ao examinar o terminal após a ocorrência da falha / falha, as mensagens de erro sobre a impossibilidade de redefinir a NIC foram impressas. Não consigo lembrar a mensagem exata; Eu esperava que eles estivessem em um dos arquivos de log, então eu apenas reiniciei para trazer o servidor de volta.

Veja como a ligação está configurada:

############################
# modprobe.d configuration #
############################
alias bond0 bonding
options bond0 mode=4 miimon=100 arp_interval=100 arp_ip_target=10.1.1.1 max_bonds=2
# Another bonding rule for two other NICs...

############################
# relevent lines in        #
# /etc/network/interfaces  #
############################
auto bond0
iface bond0 inet static
        address 10.1.1.100
        netmask 255.255.254.0
        broadcast 10.1.1.255
        network 1.1.0.0
        gateway 10.1.0.1
        slaves eth2 eth3 eth4 eth5
        bond-mode 802.3ad
        bond-miimon 100
        bond-downdelay 200
        bond-updelay 200
        dns-nameservers 10.1.0.1

Na configuração acima, 10.1.1.1 , o arp_ip_target , é o endereço IP do Switch, que está sempre ativo.

Alguém viu isso antes ou tem alguma sugestão? Já aconteceu duas vezes nos últimos dois meses; É muito difícil identificar exatamente o que está causando o problema, mas ele precisa ser corrigido. Eu tentei tudo o que posso pensar para reproduzir o problema.

Atualização: Uma das interfaces da NIC começou a negociar apenas uma velocidade de 10mbit com o switch. Confirmei que o cabo não era o problema, nem o switch ligando um laptop com uma placa de rede de 1 Gbit diretamente na interface do servidor que está com problemas. primeiro negocia uma velocidade de 1000gbit, alguns segundos depois morre e renegocia uma velocidade de 100mbit. Eu também tentei conectar outra interface na placa em questão na mesma porta no switch em que a interface com falha foi conectada e funciona perfeitamente.

Suponha por um segundo que apenas esta interface no cartão esteja falhando, e não o cartão inteiro em si. Por que o vínculo inteiro falharia se uma interface fosse descartada? Há algo de errado com minha configuração (acima)? Se não, estou assumindo que o cartão inteiro está lentamente começando a falhar e precisará ser substituído.

De qualquer forma, pretendo substituir o cartão inteiro, só quero ter certeza de que minha configuração está correta para futuras falhas e propósitos educacionais.

    
por Rain 22.02.2013 / 17:27

1 resposta

1

O Monitor ARP não é compatível com o 802.3ad (LACP). Mude para miimon .

    
por 10.12.2014 / 12:49