Não acredito que você possa realmente agrupar dois switches de conteúdo F5, embora eu acredite que eles estejam trabalhando no recurso, mas posso estar errado. Agrupar balanceadores de carga é um grande desafio de engenharia - como eles compartilham informações na camada 4 ou na camada 7, como eles se comunicam na camada 2 ou na camada 3 e como o clustering e o compartilhamento de informações são ativados sem afetar o desempenho como balanceadores de carga na velocidade do fio, essencialmente.
Pense nos firewalls antigamente, os firewalls baseados em proxy sempre eram nós independentes porque faziam isso na camada 7 e era essencialmente impossível compartilhar essas informações entre nós sem prejudicar o desempenho, enquanto os filtros de pacotes com monitoração de estado precisavam apenas transferir informações da camada 4 e até mesmo isso era uma sobrecarga. Os balanceadores de carga normalmente serão implantados com grande parte de sua configuração, como no seu caso com VIPs, agindo como um endpoint e então toda a sessão TCP é reescrita e o load-balancer se torna o cliente para o servidor (ou seja, há essencialmente dois fluxos e essa é uma das razões pelas quais o cliente real não pode executar o pipelining http diretamente para o servidor back-end).
Com o HA, você não consegue a escala que deseja, então você terá que escalar o seu balanceador de carga para lidar com a carga, etc. Fornecedores como esse, como com o scale-up, geralmente (nem sempre como às vezes você pode habilitar a CPU extra com uma atualização de licença), significa que uma nova caixa maior, HA, fornece resiliência e confiabilidade, embora obviamente. Com o HA, você geralmente tem propagação de comando, sincronização de configuração e algum elemento de troca de sessão (que pode ser configurado em um grau, pois isso pode causar carga).
Você poderia dimensionar balanceando a carga de seus balanceadores de carga (ou seja, LB - > LB - > Web Farm), mas isso não é ótimo, pode apresentar latência, é (muito) caro e sua infraestrutura tem outro ponto de falha embora eu tenha visto implementado com sucesso.
Você pode usar algo como o VRRP, que é quase como um quase cluster. Nesta implementação, você pode ter dois conjuntos de pares de HA de balanceadores de carga na frente de seu farm da web, chamá-los de HA1 e HA2. Com o VRRP, você pode criar dois VIPs, sendo um deles ao vivo no HA1 (vip1) e o outro ao vivo no HA2 (vip2) devido à maior configuração de prioridade do VRRP. Tanto o vip1 quanto o vip2 podem fazer failover para o outro par de HA através do VRRP, seja automaticamente (baseado em monitores, etc.) ou manualmente, diminuindo a prioridade do VRRP.
A maioria dos fornecedores possui artigos da base de conhecimento sobre as configurações acima. Acredito que exista um fornecedor que tenha o verdadeiro cluster em seus produtos, mas deixarei que você pesquise no Google.
Todos os balanceadores de carga têm várias formas de persistência, que você aplica à associação do servidor de backend. As formas populares hoje em dia são cookie e hash (baseadas no 4-tuple e em uma ou duas outras coisas). Quando o balanceador de carga atua como um terminal como em seu cenário, uma vez que a conexão TCP esteja totalmente estabelecida, ele criará essencialmente um buffer de controle de protocolo, que conterá informações sobre a conexão (essencialmente a 4-tupla e algumas outras coisas novamente). Há dois desses buffers, um representando cada lado da conexão e esse buffer vive na memória no balanceador de carga até que a sessão seja finalizada, quando eles são liberados para liberar a memória para uso novamente.