Primeiro, a disponibilidade total ou o tempo de atividade de um cluster depende de como uma grande parte do cluster precisa estar ativa para que todo o cluster seja considerado 'ativo'.
- Uma máquina funcionando é suficiente? Isso significaria que qualquer máquina individual pode suportar toda a carga, se necessário.
- Todos eles precisam estar ativos ao mesmo tempo? Ou seja, não há redundância.
- Ou talvez dois em cada três online sejam suficientes? Isso permitiria uma carga de trabalho maior que o primeiro caso.
Como você descobriu, os dois primeiros casos são bastante simples de calcular.
Deixe a probabilidade de um único servidor estar online a qualquer momento p = 0.95. Agora, para três servidores, a probabilidade de estarem todos online ao mesmo tempo é p 3 = 0.857375.
Para o caso oposto, onde pelo menos uma máquina deve estar ativa em um determinado momento, é mais fácil calcular invertendo o problema e observando as probabilidades das máquinas serem offline . A probabilidade de que uma única máquina esteja offline é q = 1- p = 0.05 e, portanto, a probabilidade de estarem todos ao mesmo tempo é q 3 = 0.000125, dando probabilidade 1- q 3 = 1- (1- p ) < sup> 3 = 0.999875 que pelo menos um está ativo.
O 2 dos 3 casos é um pouco mais difícil de calcular. Existem quatro situações possíveis em que pelo menos dois dos três servidores estão ativos. 1) ABC estão em alta, 2) AB estão em alta, 3) AC estão em alta, 4) BC estão em alta. As probabilidades para todos estes são, respectivamente, ppp , ppq , pqp e qpp . Uma vez que os casos são separados, as probabilidades podem ser somadas, dando um total A = p 3 + 3 p 2 q = 0.992750.
(Isso pode ser expandido para mais máquinas. Os fatores são os conhecidos coeficientes binomiais , então contar os diferentes casos à mão funciona principalmente como um exercício.)
Naturalmente, cálculos como este são muito mais fáceis de lidar usando um programa de computador pronto ... Pelo menos um calculador on-line pode ser encontrado aqui:
link
Inserindo os valores de entrada: probabilidade de sucesso = 0,95, número de tentativas = 3, número de sucessos = 2, obtemos o resultado "Probabilidade Cumulativa: P (X ≥ 2) = 0,99275". Alguns outros valores relacionados também são fornecidos e a ferramenta on-line facilita a reprodução com outros números também.
E sim, todos os itens acima assumem que os servidores falham independentemente, isto é: a) ignorei qualquer problema que afeta o cluster como um todo; b) não há nada como o envelhecimento de componentes que poderia torná-lo provável para os servidores falhar em ou quase ao mesmo tempo.