Atualmente, estou nas fases iniciais de planejamento / implementação para obter um datacenter remoto de DR / HA configurado para $ WORK. Nosso ambiente atual já é altamente virtualizado, tanto em termos de virtualização de servidores (VMware) quanto de virtualização de armazenamento (Compellent SAN). Assim, achamos que fazia mais sentido aproveitar essas tecnologias e as soluções de alta disponibilidade disponíveis.
Todos os nossos volumes VMFS atualmente residem na Compellent SAN e usaremos a replicação de volumes assíncronos de volume para manter as coisas relativamente sincronizadas (provavelmente a cada 15 minutos) em outra SAN no site remoto. Então, para as próprias VMs, estamos usando o SRM da VMware. Produto muito legal que eu estou supondo que você já ouviu falar. Se você quiser, pode praticamente abstrair / automatizar o failover para o datacenter secundário com um único clique no botão. Muito liso.
Felizmente, para nós, temos um link GigE entre os sites que usaremos para a replicação de SAN (entre outras coisas). Ao sincronizar a cada 15 minutos, os deltas de volume no nosso caso não serão tão grandes. Dependendo da quantidade de churn dos sistemas do seu cliente, pode não ser tão difícil manter as coisas sincronizadas em um link de 100 Mbps (ou até menor). Eu sei de outros clientes Compellent que estão sincronizando em um único T1. Obviamente, não há muita mudança de dados acontecendo lá ...
De qualquer forma, aqui estão algumas coisas a serem levadas em consideração:
- Cuidado com suas lutas de swap. Eles provavelmente não precisam ser replicados. Claro, os sistemas no extremo vão precisar de luns de troca, mas você provavelmente pode obter essas VMs mapeadas novamente para luns locais. Dessa forma, você não precisará se preocupar com a sobrecarga de replicar dados inúteis.
- Certifique-se de que seu fornecedor de SAN tenha algum plano para failback. Você não quer ficar "preso" ao seu ambiente de produção em execução no site de failover por meses porque não consegue descobrir como colocar as coisas em sincronia no site principal.
- Isso é óbvio, mas teste, teste, teste. O VMware SRM torna isso muito fácil de executar e pode fornecer a você bons relatórios de teste de failover para entregar aos PHBs.
- endereçamento IP. No nosso caso, temos 802.1QinQ em execução entre sites, portanto, endereçar novamente os servidores quando executados no site de failover (felizmente) não será necessário. Isso exige, no entanto, anúncios BGP (com pesos apropriados) de cada site, bem como regras de firewall a serem mantidas em cada site para que, quando o tráfego passar para o site de failover, as coisas funcionem como esperado.
Esse é todo o conselho que tenho por enquanto. Em seis meses, quando eu estiver (espero) prestes a finalizar o nosso sistema de DR, tenho certeza que aprenderei muitas outras coisas. :) Boa sorte e divirta-se!