Não importa o que você faça, o hardware falhará. As pessoas cometem erros.
Sem sombra de dúvida, eu atualizaria cada rack para ter vários de tudo.
Você diz que tem 50k de servidores em cada rack, mas apenas um único switch os conecta ao mundo externo? Também um único roteador e firewall único eu presumo. Não tenho certeza se poderia lidar pessoalmente com isso se eu fosse o Sysadmin. Eu exigiria vários provedores de trânsito diversos, um par de roteadores de borda no modo HA / HSRP, um par de firewalls HA, pelo menos dois switches, e todos os servidores com duas nics, teriam um switch diferente em cada NIC.
STP lida com a falha de um switch ou de uma porta, isso é automagic. A falha de um roteador é tratada pelo software HA no par. Ditto firewalls. Perdendo um datacenter e trocando o tráfego entre eles, estou assumindo que você usa alguma forma de dispositivo GSLB?
Eu mudei completamente sua idéia, mas o problema é, digamos que o DC1 fique offline devido a um grande incidente, isso levará dias ou semanas para voltar (fogo, inundação, ação de $ imaginary_deity) .. então você tem um falha do roteador no DC2. Este não é um cenário terrivelmente impossível. Toda a sua infraestrutura agora está inacessível na Internet, com base no que você nos informou.
Este é um dos modos de falha aceitáveis? Eu certamente não suportaria esse tipo de interrupção, quando é tão fácil (não barato) evitável.
Suponho que, se você fizer a avaliação de risco para esse tipo de interrupção e levar em consideração o negócio perdido que seu empregador sofreria, se o custo do upgrade for menor do que a perda de negócios por uma semana, então é um bom lidar.