Utilização do servidor e como lidar com a falha do datacenter

1

Novas tecnologias, como Docker, Mesos, Kubernetes etc., permitem uma utilização muito melhor do servidor em uma organização. No entanto, gostaria de saber como a utilização pode ser maximizada em dois datacenters, levando em conta a falha de um datacenter inteiro.

Dado este cenário:

Dois datacenters (DC-A e DC-B) com uma quantidade igual de recursos de computação. Ambos os datacenters estão executando e atendendo a solicitações em um modo de balanceamento de carga / round robin. A utilização do servidor nos dois datacenters é de 80%.

Digamos que o DC-B falhe (físico ou de rede) e seja inacessível. O DC-A não poderá adicionar uma utilização adicional de 80%, pois já está com 80%. Deixando a organização no estado em que o DC-A potencialmente não será capaz de lidar com a demanda extra e causará interrupções ...

Isso significa que uma organização de dois datacenters (DC-A e DC-B) só pode ter 50% de utilização máxima por datacenter? Ou seja Ou DC falha e o outro DC será capaz de pegar a folga que o outro estava carregando (50% + 50%).

Este pensamento está correto? Como os outros estão lidando com esse problema ou estou perdendo alguma coisa?

    
por Donovan Muller 31.07.2015 / 11:24

2 respostas

5

Para serviços que precisam estar sempre disponíveis, você precisa da redundância N + 1, onde N é o número de datacenters ou servidores (ou o que você perder no cenário de falha proposto) necessários para lidar com a carga. Isso fica mais barato quanto maior a sua obtenção - no nível mais baixo, com dois datacenters, cada um precisa ser capaz de lidar com toda a carga de trabalho. Mas se você tiver 10, eles podem fazer o trabalho de 9 e ainda ser redundantes.

A outra opção é a rejeição de cargas, embora essa frase seja mais usada com sistemas de energia. Basicamente, desligue todos os serviços não essenciais em um cenário de falha, para que os sistemas restantes tenham recursos suficientes.

    
por 31.07.2015 / 13:16
4

Uma abordagem bastante comum é que, para o ambiente de produção, a capacidade reservada é suficiente para que, em caso de calamidade, o (s) datacenter (es) restante (s) possam lidar com a carga total e todas as operações continuem funcionando normalmente.

Normalmente, os orçamentos nunca se estendem o suficiente, nem o aparente caso de negócios é viável para permitir total recuperação / failover de desastre para ambientes que não são de produção. Degradação ou indisponibilidade completa pode ser considerada aceitável.

Dependendo da plataforma, alguns podem escolher a opção de aumentar a capacidade de produção disponível para atender ao aumento de carga no (s) datacenter (es) restante reduzindo os ambientes de não produção em caso de desastre.

    
por 31.07.2015 / 13:17