Após uma investigação mais profunda, encontrou o problema dos problemas de round-robin e DUP. Eles estão realmente relacionados.
- round robin (0) em vez de backup ativo (1)
No CentOS 5+, e aparentemente especialmente no 6.6, recomendou / preferiu usar o parâmetro BONDING_OPTS
diretamente em ifcfg-bond0
(e não nas opções do módulo de ligação, isso faz sentido)
DEVICE=bond0
...
BONDING_OPTS="mode=1 miimon=100"
(o modo pode ser especificado como '1' ou como 'ativo-backup')
Depois de adicionar a linha, tudo funcionou como esperado.
- quadros ping duplicados
No modo round-robin, ambas as interfaces são usadas. E quando as interfaces estão conectadas a dois switches diferentes, as primeiras respostas ping podem ser duplicadas
It is not uncommon to observe a short burst of duplicated traffic when the bonding device is first used, or after it has been idle for some period of time. This is most easily observed by issuing a "ping" to some other host on the network, and noticing that the output from ping flags duplicates (typically one per slave).
For example, on a bond in active-backup mode with five slaves all connected to one switch, the output may appear as follows:
# ping -n 10.0.4.2
PING 10.0.4.2 (10.0.4.2) from 10.0.3.10 : 56(84) bytes of data.
64 bytes from 10.0.4.2: icmp_seq=1 ttl=64 time=13.7 ms
64 bytes from 10.0.4.2: icmp_seq=1 ttl=64 time=13.8 ms (DUP!)
This is not due to an error in the bonding driver, rather, it is a side effect of how many switches update their MAC forwarding tables.
Depois de alternar para o backup ativo, não foram observados mais DUPs.
Isso é explicado em detalhes nesta documentação de valor inestimável