Você está realmente falando sobre três coisas inter-relacionadas, mas diferentes:
- Tolerância a falhas (como continuo em execução ou faço backup com tempo de inatividade mínimo)
- Backup de dados (o que eu faço quando alguém rm -rf é meu repositório)
- Recuperação de desastre (O que faço se meu escritório for apagado da face da terra)
Você deve realmente pensar neles como três processos distintos, mas inter-relacionados. Eu irei ao mais detalhes com tolerância a falhas, já que parece ser o que você está realmente procurando com o tempo de inatividade máximo de 1 hora.
Algumas coisas a considerar para tolerância a falhas:
- Quanto tempo levarei para conseguir novos equipamentos?
- Quanto tempo levarei para reconstruir a caixa?
- Quanto tempo levarei para verificar e restaurar os dados?
Pegue a soma desses tempos, multiplique, mas 30% (nada funciona tão bem quanto você pensa em uma emergência) e se essa soma for maior do que seu tempo de inatividade aceitável, você precisa começar a ver algumas configurações de alta disponibilidade. Se é menos, é sua decisão de assumir o risco de suas estimativas estarem baixas e as pessoas ficarem mais tempo do que o esperado.
No que diz respeito a algumas possíveis soluções, há muitas coisas que você pode fazer. Mas em todos os casos eu recomendaria altamente a substituição da área de trabalho por uma máquina de classe de servidor. A qualidade dos componentes é maior, e eles são construídos para serem executados 24x7x365, portanto, há uma quantidade decente de redundância já embutida no hardware (boas placas RAID, fontes de alimentação redundantes, etc.)
- Você pode configurar um servidor em espera em seu segundo site e depois sincronizar seus dados a cada x quantidade de tempo - em que x é a quantidade de dados que você está disposto a perder se o servidor ficar inoperante entre as replicações. O rsync é um canal de dados muito pequeno e amigável após a primeira sincronização, pois envia apenas arquivos delta e alterados. Além disso, configure seus servidores para que eles sejam acessados via CNAME para que você possa simplesmente trocar onde está apontado e pronto.
- Faça o mesmo que acima, exceto o servidor em espera no local principal.
- Obtenha um SAN / NAS e dois servidores. Em seguida, configure-os em um cluster ativo / ativo ou em um cluster ativo / passivo
Os backups são uma parte muito importante do cenário também. Você deve se lembrar de que não há substituto para um backup pontual armazenado fora do local. Pessoalmente, eu ainda acho que o backup em fita, e depois tê-lo armazenado por uma empresa como a Iron Mountain, é a melhor opção. Para o seu tamanho ambiente, qualquer uma das soluções de backup "grandes" - ArcServ, BackupExec, NetBackup deve fazer muito bem. Também certifique-se de testar seus backups pelo menos trimestralmente. Nada é mais difícil do que descobrir que o backup que você precisa é ruim.
Recuperação de desastre é realmente apenas sentar e planejar onde você vai trabalhar, de onde você obterá o equipamento de substituição, certificando-se de que você tem bons backups externos. Eu vejo DR como trazer todos os componentes mencionados acima em um plano de ação coeso para quando o pior acontecer.