Cisco HSRP com failover lento de spanning-tree

1

Estou tendo um problema com a rede que não consigo enrolar minha cabeça, já que não sou um cara de rede strong para entender isso. Do nosso provedor, temos 2 gotas via HSRP que entram em nossos switches cisco 2960 que estão empilhados. Então, cada switch tem uma queda. De lá, temos dois dispositivos Astaro atrás dos switches que lidam com todo o firewall e o roteamento da VLAN. Estes, em seguida, alimentam de volta para o Cisco 2960 e também todos os hosts VM estão no mesmo 2960 Então parece algo como

                           --------------              --------------
                   |------ | Cisco 1 2960 | <--------> |Astaro 1 / VMS|
                   |       ______________              --------------
----------- --------
| Uplink  | 
|---------- -------- 
                   |       --------------              --------------
                   |-------| Cisco 2 2960 | <--------> |Astaro 2 / VMS|
                           --------------              --------------

Assim, a qualquer momento, um cisco é o mestre da pilha e o astaro também é mestre.

Digamos que eu tenha o seguinte scenerio

Master Astaro é o número 1 Interruptor principal na pilha é # 2

Se eu recarregar o switch # 2, fico com um tempo de inatividade de 2 minutos enquanto o switch 1 assume e as coisas são renegociadas.

Algumas das configurações do meu cisco parecem

spanning-tree mode rapid-pvst 
spanning-tree extend system-id
no spanning-tree vlan 1,100

interface GigabitEthernet1/0/1
 switchport access vlan 100
 switchport mode access
 switchport nonegotiate
 duplex full
!
interface GigabitEthernet1/0/2
 switchport mode trunk
 switchport nonegotiate
!
interface GigabitEthernet1/0/3
 switchport mode access
 switchport nonegotiate
!
interface GigabitEthernet1/0/4
 switchport access vlan 100
 switchport mode access
 switchport nonegotiate
!

a porta 1 é para meu provedor e 2-4 são para o switch para o astaro para gerenciamento de porta / vlan port e wan port.

Estou perdendo por que não posso ter um failover melhor do que 2 minutos se eu reiniciar um switch.

Editar

abaixo é a configuração para nossa "pilha"

sw1a>show switch
Switch/Stack Mac Address : 64d8.1431.6a80
                                           H/W   Current
Switch#  Role   Mac Address     Priority Version  State
----------------------------------------------------------
 1       Member 0cd9.960b.5b00     15     1       Ready
*2       Master 64d8.1431.6a80     10     1       Ready
  • A porta 1 no comutador é o nosso uplink
  • a porta 2 é a porta WAN que retorna ao astaro
  • a porta 3 é a porta vlan de gerenciamento de volta ao astaro
  • a porta 4 é a porta vlan que retorna ao astaro

O astaro é basicamente um dispositivo linux que dá um gui a todos os iptables e ferramentas que o linux oferecerá para redes.

    
por Mike 10.04.2013 / 23:46

1 resposta

2

Com base em suas edições e comentários, não acho que esse seja um atraso de árvore de abrangência que você está vendo. O tempo de inatividade que você está descrevendo (2 minutos) é realmente muito longo para ser explicado pelo STP, e eu duvido que os servidores Linux estejam executando o STP com os switches. Você também está basicamente fazendo uma spanning tree de switch único, já que uma pilha de switch é considerada um switch lógico.

Existem alguns ajustes de STP que provavelmente são uma boa ideia na sua situação. Primeiro de tudo, você pode reativar o Spanning-Tree em suas VLANs - não há motivo para desativá-lo. O modo rapid-pvst é uma boa idéia, a menos que você esteja tentando executar o spanning-tree com as caixas do Linux. Você também pode dizer ao switch que os troncos para seus dispositivos Linux (Gi1 / 0/2) não são comutadores.

spanning-tree vlan 1,100
interface GigabitEthernet1/0/2
spanning-tree portfast trunk

Isso deixa os outros recursos de redundância que você tem aqui, que são a própria pilha de comutadores, o HSRP e qualquer coisa no Astaros.

Minha aposta é no mecanismo de recuperação de falhas no Astaros. Desde que você mencionou que um é "mestre", isso implica que apenas um está ativo a qualquer momento. Que tipo de temporizadores são configurados nos dispositivos Astaros para failover? Você tem algum log que indique quanto tempo leva para que o dispositivo de espera se torne ativo após a falha do switch?

A spanning-tree não parece correta devido ao fato de que todo o STP está sendo feito em um switch e devido ao tempo de inatividade. O failover da pilha de switches (pelo menos em pilhas de 3750) deve ser mais rápido do que isso também, embora você possa conectar um console ao comutador secundário para ver se está demorando muito para assumir o controle como mestre. O HSRP (assumindo que ele está sendo executado no provedor e não em seus switches) também falhará um pouco mais rápido do que isso, e não deve estar afetando você.

TL; DR - Eu acho que são os temporizadores de failover em suas caixas Linux que estão causando o atraso. O segundo lugar vai para a pilha de interruptores levando muito tempo para que o comutador secundário assuma a função de mestre.

    
por 11.04.2013 / 01:04

Tags