Seu problema é duplo. Uma é como você replica dados; segundo é como você direciona o tráfego para o site atualmente ativo.
1: Isso depende muito dos seus requisitos. A replicação síncrona é cara, muito cara, atingindo principalmente os custos de rede. O assíncrono pode ser feito de muitas maneiras diferentes, simples e baratas, e complexas, e com custo de licença do fornecedor, mas não lhe dará a garantia de nunca perder nenhum dado. Converse com seus líderes de negócios, descubra o que eles querem ver e crie algo que atenda a esses requisitos específicos.
2: Duas abordagens padrão estão modificando registros DNS (que você parece estar ciente, a julgar pelas tags de pergunta) ou executando o BGP.
A maioria dos dispositivos GSLB existentes usa o DNS: o hardware que está ciente do status de seus servidores age como o servidor autoritativo do seu domínio, emitindo respostas que apontam os clientes para o site apropriado. Seu tempo de failover depende do TTL definido para a zona e do comportamento do software cliente. Essa abordagem não garante 100% de sucesso, mas parece ser aceita por todos como "boa o suficiente". Você pode fazer o mesmo sem hardware dedicado, apenas com alguns scripts inteligentes (monitore os hosts, modifique os arquivos da zona de ligação e recarregue o bind quando necessário).
O BGP é mais claro: você anuncia seu bloco de IP do site que precisa receber todo o tráfego e, dentro do tempo de convergência (15 minutos, aproximadamente), todo o tráfego irá para lá. Nenhuma dependência de resolvedores de DNS ou caches de nomes quebrados. Mais difícil de configurar - você precisa de roteadores compatíveis com BGP em ambos os sites.