Tudo isso se resume ao gerenciamento de riscos. Fazer uma análise de custo / risco adequada de seus sistemas de TI ajudará você a descobrir onde gastar o dinheiro e quais riscos você pode ou tem que conviver. Há um custo associado a tudo ... isso inclui HA e tempo de inatividade.
Eu trabalho em um lugar pequeno, então eu entendo essa luta e o geek de TI em mim não quer pontos únicos de falha em qualquer lugar, mas o custo de fazer isso em todos os níveis não é uma opção realista. Mas aqui estão algumas coisas que consegui fazer sem ter um orçamento enorme. Isso nem sempre significa remover o único ponto de falha.
Network Edge : Temos duas conexões de internet, T1 e Comcast Business. Planejando mover nosso firewall para um par de computadores antigos que executam o pfSense usando o CARP para HA.
Rede : A obtenção de alguns switches gerenciados para o núcleo da rede e o uso de ligação para dividir os servidores críticos entre os dois switches impede que uma falha de switch elimine todo o data closet.
Servidores : todos os servidores têm fontes de alimentação redundantes e RAID.
Backup Server : Eu tenho um sistema mais antigo que não é tão poderoso quanto o servidor de arquivos principal, mas tem algumas unidades sata grandes no raid5, que tiram fotos instantâneas do servidor de arquivos principal. Eu tenho scripts de configuração para isso para mudar as funções para ser o servidor de arquivos primário deve ir para baixo.
Servidor de backup externo : semelhante ao backup local, fazemos backups noturnos em um servidor através de um túnel VPN para um dos proprietários.
Máquinas virtuais : Eu tenho um par de servidores físicos que executam vários serviços dentro de máquinas virtuais usando o Xen. Eles estão sendo executados em um compartilhamento NFS no servidor de arquivos principal e eu posso fazer a migração ao vivo entre os servidores físicos, se necessário.