Melhor maneira de melhorar a resiliência?

5

Um dos principais projetos que eu alinhei para 2010 está tentando mitigar alguns dos Pontos Únicos de Falhas (SPOFs) em uma rede que eu gerencio atualmente. Atualmente, temos um único rack de datacenter com dezenas de servidores. Dentro do rack, somos redundantes e resilientes, cada servidor tem dois discos e pode suportar uma falha.
Nossos servidores de armazenamento de dados têm mais de 3 discos e podem suportar uma falha. Também somos rápidos em reparar / substituir hardware quebrado. Cada servidor tem pelo menos um parceiro replicado, e podemos perder 1 ou 2 de cada cluster (ou seja, web, banco de dados, armazenamento).

A conectividade com a Internet é fornecida por dois feeds de 100MBit via ethernet para nosso principal provedor de trânsito, conectando-se a um par de firewalls Cisco ASA5500 em um par de failover de alta disponibilidade. Este não é o problema.

A meu ver, os dois grandes SPOFs são os seguintes:

1) Nossa internet vem de um único provedor de trânsito. Se a rede deles cair, nós saímos da Internet. Como estamos em um datacenter neutro, é bastante fácil obter um segundo tráfego IP.

2) Se algo acontecer ao poder em nosso datacenter, então também desapareceremos.

Idealmente, gostaria que os servidores em dois datacenters utilizassem rotas diversas em vários provedores de trânsito IP, anunciando via BGP.

No segundo datacenter, eu estaria especulando dois roteadores Cisco série 28xx, dois firewalls ASA 5500, um par de switches Catalyst 48 e uma dúzia de servidores Dell. Aproximadamente para corresponder ao local principal.

A alegação da gerência de que há uma despesa enorme envolvida com essa abordagem, e a rota do BGP é excessivamente cara. Embora pareçam felizes por ter um segundo local, o BGP parece estar fora da mesa.

A última cotação para multihoming correu perto de £ 80k. (Talvez eles estivessem pedindo cotações para Ciscos banhados a ouro!)

Em vez disso, a gerência acha que isso seria resolvido com uma solução baseada em DNS, onde nosso roteamento é controlado por um serviço de monitoramento de status de status (como pingdom), que altera nossos registros DNS (com um TTL 1s) para apontar para a localização alternativa no caso de uma falha do servidor.

Grandes quantidades de empresas usam o BGP por uma razão, esta solução de DNS simplesmente não vai cortá-lo, especialmente considerando que muitos ISPs e assim por diante realmente desconsideram TTLs curtos e os substituem por TTLs mais longos.

Perguntas:

1) Alguém pode recomendar um datacenter neutro na Europa Ocidental (Amsterdã, etc), ou no leste dos EUA (DC, VA, NY, etc)?

2) Alguém já fez essa solução de DNS funcionar corretamente ou é um caso de loucura total?

3) Eu sou o único a pensar que uma citação de £ 80k para multihoming (em 1 local) parece absolutamente excessiva?

4) Alguém tem uma boa maneira de convencer o gerenciamento de que o BGP é a única solução realista?

Pedimos desculpas pelo comprimento ..: o)

    
por Tom O'Connor 20.11.2009 / 18:20

4 respostas

5

Bem, você está certo, o DNS definitivamente não é a resposta - pegue isso de alguém que tenha executado redes ISP de hospedagem múltipla e agora o DNS para viver.

Qual foi a cotação de £ 80k para apenas BGP e um feed de trânsito adicional, ou para os roteadores Cisco necessários também? Os 2800s que você está listando atualmente provavelmente não são capazes de executar uma tabela de roteamento completa - atualmente há mais de 200k rotas na tabela BGP4 global, e isso leva um lote de memória do roteador.

Passaram alguns anos desde que eu estava fazendo isso de verdade, mas obter os fornecedores de transporte não deveria ser caro - na verdade, os fornecedores de maior escala esperam oferecer o BGP como parte do serviço, especialmente se você estiver 100+ Mbps.

Além disso, onde está o atual data center principal? Você não precisa necessariamente de uma diversidade massiva - minha rede originalmente tinha dois CDs em Londres - um na cidade e um em Docklands, a cerca de 10 km de distância. Isso é o suficiente para descartar qualquer desastre natural.

Se você tem os dois sites em Londres, há várias empresas que oferecem links Ethernet baratos entre os muitos data centers da cidade. Um dos mais bem considerados é o Datahop - eles fazem links de 1 Gbps entre sites por cerca de £ 4k por ano.

Da mesma forma, para o site de backup, se você quiser que o segundo link de transporte público seja usado em emergências, então eu vi preços estupidamente baixos dos gostos da Cogent por £ 5 por Mbps pcm. Eu não os usaria como um primário, mas como um trânsito de última instância eles valem a pena considerar.

    
por 20.11.2009 / 21:22
2
  1. Meu empregador anterior está em uma das instalações NJ da Equinix. Eles pareciam felizes o suficiente com isso quando eu estava trabalhando para eles. Além disso, desculpe, eu realmente não faço muito nessa parte do mundo.

  2. O failover de DNS é uma merda. À medida que você se identifica, há fornecedores suficientes por aí que ignoram os TTLs de DNS que o failover de DNS causará azia de gerenciamento na primeira vez em que isso acontecer.

  3. Sim, essa é uma quantia exorbitante para o multihoming do BGP.

  4. Sem conhecer a psicologia do seu gerenciamento, não posso sugerir algo muito específico. Encontre uma cotação não-estúpida para o BGP e lembre-os do que realmente custa ter uma instalação completamente redundante - é muito mais do que eles aparentemente pensam, especialmente quando você lança a necessidade de fazer testes regulares de failover para ter certeza de que tudo ainda está funcionando corretamente.

Além disso, faça uma análise sensata dos cenários e probabilidades de falha, e o que realmente custa se um deles acontecer. Pode acontecer que ter poucas horas de inatividade em alguns anos devido a uma queda de energia seja muito menor que uma instalação redundante. Muitas vezes a gerência (ou os técnicos) fazem uma "onda de redundância" que não faz qualquer tipo de sentido econômico.

Por fim, lembre-se de que a maioria das paralisações é realmente instigada por humanos, que sites de failover e toda essa complexidade extra provavelmente aumentam as chances de não reduzi-las.

    
por 20.11.2009 / 18:33
1

Apenas alguns pensamentos rápidos;

  • Divida seu kit em dois racks, cada um alimentado por spurs diferentes da mesma fase do PDU.
  • Coloque os no-breaks em cada rack se a PDU não tiver um.
  • Considere o Balanceamento de Carga Global no BGP, é assim que fazemos nosso material ativo em vários sites.
  • Considere a Telehouse (telehouse.net), eles têm lugares na Europa Ocidental e no leste dos EUA e são neutros e altamente considerados.
por 20.11.2009 / 18:27
0

Solução simples e boa: Nosso site de comércio eletrônico de tamanho médio usa o Zoneedit DNS para failover e o AlertFox para o teste de transações. Se você excluir os hickups de 1 a 3 minutos durante a troca, nosso tempo de até este ano será de 100%. Custo: 20 $ / ano (?) Para Zoneedit e $ 199 / mês para AlertFox PRO3. Mais dois servidores dedicados.

    
por 26.11.2009 / 01:11