Disponibilidade / tempo de atividade do Windows Server 2003

1

Estou pensando em montar um SLA de suporte. Como linha de base, gostaria de saber mais ou menos que tipo de porcentagem de disponibilidade devo esperar de um Windows 2003 Server não clusterizado.

As suposições são de que o servidor é confortavelmente especificado para o aplicativo que está sendo executado (portanto, não será trabalhoso) e que, por tempo de atividade, quero dizer que o servidor está disponível. Ele precisa passar por uma manutenção geral razoável (patches de segurança e similares).

O que as pessoas esperariam?

    
por Jon Hopkins 06.07.2009 / 11:17

6 respostas

3

Ao elaborar um SLA, é mais importante concordar com o cliente o que ele espera (e pagar) do que você está disposto a suportar dentro das restrições do equipamento e do orçamento que você possui.

Por exemplo: um único servidor não agrupado não é adequado para um cliente que deseja 99,999% de tempo de atividade e 24 horas de serviço de plantão e 1 hora de "retorno às operações" em uma falha grave. Não é tecnicamente razoável aceitar isso e o cliente precisa entender isso.

Sim, o Windows 2003 Server é confiável e pode funcionar muito bem. Servidores de marca vêm com confiabilidade comprovada e garantias sólidas. O monitoramento regular e o TLC em um servidor podem mantê-lo por muitos anos.

Você precisa "esperar o melhor, mas planejar o pior".

Você também precisará calcular com precisão as estatísticas de disponibilidade e ter o cálculo acordado com o cliente (o tempo de inatividade de 1 hora às 2h é um "custo" diferente das 11h de uma terça-feira).

Você precisará incorporar todo o equipamento adicional necessário para manter um servidor ativo (rede, switches, firewalls, tempo de operação, backups).

Por fim, você precisará testar seus planos de contingência e manter sua infraestrutura flexível para que possa solucionar a falha de várias maneiras diferentes.

    
por 06.07.2009 / 14:39
2

Não existe realmente um número padrão que possamos citar, por si só, o servidor 2003 é um sistema muito estável, mas o tempo de atividade que você pode esperar depende de vários fatores variáveis.

Em teoria, a única coisa que você precisa para deixar o servidor offline é aplicar as atualizações, que devem ser no máximo uma vez por semana. Você pode calcular seu tempo de inatividade para esses parâmetros, cronometrando quanto tempo o seu servidor leva para ser reinicializado.

Tudo isso é bom na teoria, mas todos sabemos que os servidores ficam off-line por outros motivos também, falhas de hardware, problemas de rede, falhas de software, e isso não é algo que você pode prever facilmente, mas seria aconselhável para eventos imprevisíveis.

Finalmente, você vai querer levar em consideração o tempo para atualizações ou mudanças planejadas, é provável que o uso do servidor aumente com o tempo, será necessário atualizações para lidar com a mudança?

Todas essas coisas incorporadas lhe darão seu tempo de atividade previsto, e pode ser que seu tempo de atividade real seja melhor do que isso se você não tiver falhas, nem atualizações, etc., mas é melhor ser cauteloso.

    
por 06.07.2009 / 11:34
1

Da minha experiência com o Server 2003 Standard R2, posso dizer, é alto se você não tiver problemas de hardware / rede.

Os 2 servidores que eu tenho rodando o Server 2003, nunca travaram uma vez sozinhos. Um servidor tem um tempo de atividade de 240 dias! Observe: isso ocorre porque eles nunca instalaram atualizações no sistema.

Demoraria muito para travar 2003 a partir da operação normal.

    
por 06.07.2009 / 11:42
0

Você pode planejar um SLA para atualizações, ou seja, reduzir uma vez por semana por até duas horas, por exemplo, supondo que tudo corra bem. Mas a menos que você inicie o cluster com failovers, etc, não há como fazer um SLA para todo o resto. O que acontece se você fizer as atualizações, reiniciar o servidor e não aparecer? Ou ele pega um vírus, ou o controlador da unidade morre, os problemas podem ser infinitos.

É melhor especificar o SLA para aplicar atualizações e um SLA para responder a problemas que surgem.

Faça o SLA como eu vou responder a uma interrupção dentro de 1 hora, mas o tempo para resolver ou contornar essa interrupção irá variar, pois não pode ser antecipado.

    
por 06.07.2009 / 13:07
0

O Windows, qualquer versão, se beneficia de reinicializações regulares. O próprio sistema operacional tem vazamentos de memória, sem levar em conta aplicativos e serviços. Atualizações exigem reinicializações também. Você pode combinar facilmente as duas operações e ter um tempo de inatividade a cada semana apenas do tempo necessário para reinicializar.

Depois de tentar várias maneiras de aplicar atualizações e ter reinicializações regulares, aprendi que a melhor maneira é fazer o script das atualizações, mas não permitir que o processo de atualização reinicialize a máquina. Eu experimentei vários casos de servidores que não foram desligados corretamente ou não voltaram corretamente quando a reinicialização foi acionada por uma atualização com script. Ter a reinicialização executada separadamente. Eu programo as atualizações para instalar a partir das 11h da noite de sábado e as reinicializações ocorrem entre os 3 e 4 da manhã de domingo.

O sistema de monitoramento não emite alertas durante esse período para evitar que alertas desnecessários sejam produzidos. Além disso, os servidores me enviam um emai após a reinicialização. Quando acordo no domingo de manhã, verifico meus e-mails. Se houver algum alerta ou não tiver um e-mail de cada servidor reinicializado, sei que tenho um problema. Ainda não aconteceu ainda.

    
por 06.07.2009 / 13:37
0

Em um mês de 30 dias há 43,200 minutos. O tempo de atividade de 99,75% é de 43.092 - o que lhe dá 108 minutos de inatividade para executar qualquer manutenção programada. Isso deve ser mais do que suficiente, embora eu pense que não há problema em escrever no SLA a manutenção principal (incluindo, mas não se limitando a atualizações) planejada com antecedência é excluída do SLA.

A parte mais difícil é em uma emergência - quanto tempo você levará para chegar ao servidor, identificar o problema e consertá-lo. Nesse caso, quatro horas podem não ser suficientes (99,44%).

Venho cuidando de servidores windows alocados desde 2000, e em todo esse tempo me lembro de 4 interrupções causadas pela falha do firewall (hardware separado, 2x catastrófico), 1 ataque DoS na rede (não contra nossos servidores, mas impactada), bem como algumas janelas significativas de manutenção programada exigidas pelo data center. Os servidores do Windows em si ... além de aplicar os patches ou service packs eu não consigo pensar em nenhum. (rapidamente touchwood)

O que eu esperaria? Mínimo 99,5% (o que parece baixo), mas que pelo menos lhe dá uma chance. Na maioria dos meses você estará próximo de 100,00%. Não vá mais alto (que 99,5) se o cliente não estiver pagando por isso ...

    
por 06.07.2009 / 18:01