Para serviços que precisam estar sempre disponíveis, você precisa da redundância N + 1, onde N é o número de datacenters ou servidores (ou o que você perder no cenário de falha proposto) necessários para lidar com a carga. Isso fica mais barato quanto maior a sua obtenção - no nível mais baixo, com dois datacenters, cada um precisa ser capaz de lidar com toda a carga de trabalho. Mas se você tiver 10, eles podem fazer o trabalho de 9 e ainda ser redundantes.
A outra opção é a rejeição de cargas, embora essa frase seja mais usada com sistemas de energia. Basicamente, desligue todos os serviços não essenciais em um cenário de falha, para que os sistemas restantes tenham recursos suficientes.