Os servidores / serviços da web são mais propensos a falhar fora do horário de trabalho?

2

Acabei de ter uma queda de servidor às 4h59 da madrugada de domingo e, analisando nossos registros de funcionamento desde 2006, exceto por quatro interrupções de 20 ocorridas entre as 23h e as 6h. (Observando apenas o tempo de inatividade não planejado em servidores da Web e de banco de dados, não em servidores de aplicativos em uma LAN interna.)

Os outros também encontram comportamento semelhante para seus servidores? Isso é apenas um golpe de sorte?

Edit: Foi porque muitas interrupções (não planejadas, não programadas, e ocorridas em nosso hardware, não na rede do ISP) ocorreram entre as 23h e as 6h, o que me fez pensar é que apenas nós ...

Os servidores são mais movimentados em termos de visitantes entre 13h e 22h, enquanto backups de bancos de dados acontecem ao longo do dia e um grande backup (onde a compactação usa mais CPU) ocorre por volta das 4h30 todas as manhãs. Mas as interrupções ocorreram a qualquer momento durante esta janela (também estas 20 interrupções são eventos ocorrendo em 1 de 5 servidores ou 2 firewalls - cerca de um terço dos quais foram resultado de falha de dois discos rígidos de duas máquinas diferentes). Não há nada indicando que o servidor estava fazendo algo especificamente porque eram as pequenas horas da manhã.

    
por Dan 14.11.2010 / 08:52

5 respostas

16

As "horas de trabalho" típicas não são mais do que 40 horas por semana. Menos em algumas partes do mundo. Uma semana contém um total de 168 horas. 40/168 = menos de 24% do tempo de uma semana é 'horas de trabalho'.

Isso sugere que as falhas de sistemas que estão sendo executados 24 horas por dia, 7 dias por semana, ocorrerão três vezes mais vezes durante as horas de folga do que as horas de trabalho.

Obviamente, existem muitas outras considerações que podem ser usadas para isso; vários turnos, horários de pico (que, para muitos, podem influenciar ainda mais as falhas em relação a horas de folga), etc.

    
por 14.11.2010 / 09:06
10

Sim, nós encontramos, e não, não é por acaso. Seus servidores te odeiam, tenho certeza. Eu sei que os meus servidores me odeiam, e enquanto eles me veriam morto, se eles se sentissem indecisos, eu tenho certeza que eles aguentam até seus daemons ntp sussurrarem em seus ouvidos que é no meio da noite, e agora é um bom hora de morrer. Eles sabem que falhar às 10h30 arruinará o meu dia, mas falhar às 03h45 arruinará a minha noite, me arrastará até Londres no escuro e arruinará o dia seguinte também. Eles amam isso.

Depois de um firewall corporativo falhar em um momento muito inconveniente devido a um disco rígido defeituoso, separei a placa controladora de disco do disco rígido, cortei-a em quatro e, depois disso, usei - e ainda uso - um quarto de placa, como um couro cabeludo, pendurado na minha "cadeia de escritório" (o cordão com todos os vários tokens de acesso que uso em todos os meus vários sites). Tenho certeza de que a visão dessa terrível relíquia, a seu ver, manteve seus irmãos e irmãs em grande parte na linha de agora em diante, sendo a penalidade pelo fracasso claramente exibida.

(Caso alguém sofra uma falha de senso de humor, este post é uma piada; exceto a parte sobre o controlador HDD, que é absolutamente verdadeira e funciona.)

    
por 14.11.2010 / 09:33
2

O horário entre as 23h e as 6h parece ser uma hora típica para se executar tarefas noturnas do cron. Talvez alguns deles sobrecarreguem seus servidores, aumentando o risco de uma falha pendente acontecer.

    
por 14.11.2010 / 09:43
2

Durante a noite é quando a maioria das alterações de infraestrutura ocorre. Redes e outros recursos podem diminuir. Se você estiver usando o monitoramento remoto, verá seu site cair porque não está acessível. Conhecer as janelas de manutenção para seus vários recursos ajudará a eliminar essas interrupções de interrupções reais.

Como outros notaram, as interrupções médias são mais prováveis fora do horário de expediente com base nas horas do relógio. Dada a disponibilidade durante a semana e um dia de trabalho de 8 horas, apenas 1/3 das interrupções devem ocorrer durante o horário de expediente. Adicione nos fins de semana e menos ainda as interrupções ocorrem durante os dias úteis.

Acompanhe os motivos das interrupções e como eles foram detectados. Você encontrará algumas interrupções devido a recursos como a queda da rede. Estes podem aparecer como falhas misteriosas onde o site desapareceu por alguns minutos e voltou sem intervenção. Eu esperaria que muitas das suas interrupções durante a noite fossem mudanças de infra-estrutura.

Geralmente, as alterações na infraestrutura são agendadas, portanto, você deve ser capaz de ser notificado sobre elas. Você pode então ajustar sua resposta de acordo. Seu log de interrupções deve refletir que a interrupção ocorreu devido à alteração. Registre também qualquer intervenção que seja necessária. Talvez seja necessário adicionar um código de recuperação ao seu aplicativo para manipular as reinicializações do banco de dados ou outras alterações de recursos.

Conhecer as janelas de manutenção para vários recursos pode ajudar a identificar quais recursos estão causando indisponibilidades não planejadas. Talvez seja necessário rastrear suas dependências de recursos, pois o disco e os bancos de dados em rede dependerão da infraestrutura da rede. Da mesma forma, o banco de dados pode depender do armazenamento em disco em rede.

    
por 14.11.2010 / 18:54
1

Eu tive um servidor Voip morrendo em mim nos últimos 3 meses. Die, talvez não seja a melhor palavra, já que a máquina seria inicializável após um pânico no kernel. Normalmente, a máquina funcionaria sem falhas entre as 7:00 e as 19:00. Em seguida, em intervalos aleatórios separados por 1 a 30 dias, ele seria bloqueado e não responderia ao console do sistema quando eu voltasse para o escritório às 7h.

Após cerca de 12 iterações desta situação ... que invariavelmente aconteceram entre as 23h e as 7h, foi determinado que a placa-mãe falhou e, especificamente, os capacitores eram os culpados. Acho que li em algum lugar que os extremos de temperatura podem acelerar essa morte. Suponho que meu pequeno escritório não é incomum, mas eu normalmente permiti que as temperaturas oscilassem até 15 graus F acima e 20 graus abaixo de 75 graus durante as horas de folga. Portanto, acredito que operações de pequeno porte, que não estejam usando um data center refrigerado, provavelmente sofrerão de falhas induzidas pela temperatura durante as primeiras horas da manhã.

Minha lembrança, mais uma vez, é que os registros mostraram falha durante as 8 horas antes de abrirmos nossa loja pela manhã - sempre.

    
por 14.11.2010 / 22:40

Tags