Linux-KVM “quebrado” após uma troca de placa-mãe

1

Acabei de substituir a placa-mãe em um Dell PowerEdge R410 que funciona como um dos nossos servidores virtuais (executando o Ubuntu 10.04.3 LTS). Eu sou relativamente novo no Linux, e fiquei bastante surpreso quando a rede foi completamente quebrada após a troca. Outro aviso é que eu não criei nossos servidores virtuais para começar e tenho uma compreensão muito limitada de como o Linux-KVM funciona. Uma vez que a placa-mãe foi trocada, eu corri o aplicativo LifeCycle Controller e apliquei uma variedade de atualizações (a mais notável delas seria a atualização de firmware para as NICs). Depois de muita pesquisa, finalmente consegui "consertar" a rede editando o arquivo /etc/udev/70-persistent-net.rules. Dentro desse arquivo, eu removi as duas entradas antigas da Broadcom (bnx2) para a placa-mãe anterior e, em seguida, renomei as novas bnx2 eth2 e eth3 para eth0 e eth1, respectivamente. Em seguida, movi eth0 e eth1 para o topo do documento. As entradas (igb) são para uma Intel Gigabit NIC baseada em PCI que não está sendo usada no momento. Aqui está o conteúdo do meu arquivo 70-persistent-net.rules:

# This file was automatically generated by the /lib/udev/write_net_rules
# program, run by the persistent-net-generator.rules rules file.
#
# You can modify it, as long as you keep each rule on a single
# line, and change only the value of the NAME= key.

# PCI device 0x14e4:0x163b (bnx2)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="78:2b:cb:20:9d:71", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"

# PCI device 0x14e4:0x163b (bnx2)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="78:2b:cb:20:9d:72",    ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth1"

# PCI device 0x8086:0x10c9 (igb)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="90:e2:ba:0c:7e:f9", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth2"

# PCI device 0x8086:0x10c9 (igb)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="90:e2:ba:0c:7e:f8", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth3"

Isso resolveu a rede estar completamente quebrada (não foi possível efetuar ping no gateway antes), mas um problema muito maior persistiu onde o hardware do servidor é reinicializado aleatoriamente. Não consigo reproduzir facilmente o travamento, mas isso envolve a ativação dos 5 sistemas operacionais convidados que estão sendo executados na máquina e depois fazer consultas / pings do Splunk / executar o encaminhamento do X11 para o puTTY etc. O hardware em si passa por todos os autotestes. e um técnico da Dell analisou um DSET que coletei e mencionou que tudo parece ótimo em termos de hardware.

Aqui está meu arquivo / etc / network / interfaces:

auto lo
iface lo inet loopback

auto eth0
iface eth0 inet manual

auto eth1
iface eth1 inet manual

# 10.1.225.x network
auto br0
iface br0 inet static
  address 10.1.225.12
  netmask 255.255.255.0
  network 10.1.225.0
  broadcast 10.1.225.255
  gateway 10.1.225.1
        bridge_ports eth0
        bridge_fd 9
        bridge_hello 2
        bridge_maxage 12
        bridge_stp off

#vlan 231
auto eth1.231
iface eth1.231 inet manual
        up ifconfig eth1.231 up

#KVM bridge, vlan 231, via eth1
iface br231 inet static
        bridge_ports eth1.231
        bridge_fd 9
        bridge_hello 2
        bridge_maxage 12
        bridge_stp off

##vlan 229
#auto eth1.229
#iface eth1.229 inet manual
#       up ifconfig eth1.229 up

##KVM bridge, vlan 229, via eth1
#auto br229
#iface br229 inet manual
#       bridge_ports eth1.229
#       bridge_maxwait 5
#       bridge_fd 1
#       bridge_stp on

#
# !!!!! NOTE (MGRACE): This *is* used !!!!!
#
#No! Unused
auto br1
iface br1 inet manual
        bridge_ports eth1
        bridge_fd 9
        bridge_hello 2
        bridge_maxage 12
        bridge_stp off

#auto br2
#iface br2 inet manual
#        bridge_ports eth1
#        bridge_fd 9
#        bridge_hello 2
#        bridge_maxage 12
#        bridge_stp off

#auto br3
#iface br3 inet manual
#        bridge_ports eth1
#        bridge_fd 9
#        bridge_hello 2
#        bridge_maxage 12
#        bridge_stp off

Eu fiz a varredura de cada log em que posso chegar, e ainda não encontrei uma migalha de pão para seguir = (. O técnico da Dell mencionou que isso deve ser tão fácil quanto alterar o endereço MAC do hipervisor, mas foi incapaz de descobrir como fazer isso até este ponto. Qualquer ajuda é muito apreciada, e eu ficaria feliz em fornecer qualquer informação adicional que possa ser benéfica.

Obrigado -Snipe

    
por Sniperm4n 27.11.2013 / 04:17

1 resposta

1

Boas notícias: Acontece que um bloco de distribuição de energia defeituoso dentro do servidor estava causando as reinicializações aleatórias. Eu não teria sido capaz de descobrir se o problema não piorou exponencialmente duas segundas-feiras atrás, o que permitiu que uma tecnologia da Dell e eu finalmente rastreássemos a fonte. Desculpe pelo erro de diagnóstico todo mundo! =)

-Snipe

    
por Sniperm4n 11.12.2013 / 02:03