Após a atualização para o Ubuntu 15.10 a partir de 15.04, os servidores Web EC2 estão em pane

2

Eu tenho uma variedade de máquinas Ubuntu no EC2 rodando em produção, com cerca de 30 que foram atualizadas de 15.04 para 15.10. Com a maioria das máquinas, a atualização foi impecável e não teve problemas.

No entanto, 10 dos meus servidores começaram a falhar imediatamente após a atualização 15.10. Em relação ao que exatamente define uma "falha", as verificações de status da instância falham e não posso mais usar o SSH na máquina. Os daemons de segundo plano em execução no sistema param de responder e nada é gravado nos logs. As entradas de log mais recentes que vejo em uma máquina mostram:

/var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: DHCPREQUEST of 10.xxx.xxx.104 on eth0 to 10.xxx.xxx.1 port 67 (xid=0x616a091d)
/var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: DHCPACK of 10.xxx.xxx.104 from 10.xxx.xxx.1
/var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: bound to 10.xxx.xxx.104 -- renewal in 1640 seconds.

Mas minhas verificações de status da instância não começaram a falhar até 00:32:00 (quando a primeira das várias verificações não respondeu). Não há absolutamente nada nos registros durante o período após as entradas acima.

Agora, como eu disse, minhas outras 20 outras instâncias do 15.10 nunca travaram nas últimas seis semanas desde a atualização, apenas esse conjunto de servidores da web, e todos eles estão falhando. Então, o que há de diferente nessas máquinas? Apenas duas coisas, na verdade.

  1. São as instâncias do meu tráfego mais alto de 15,10, enviando e recebendo cerca de 5 a 10 MB / s em média, chegando a um pouco mais de 30 a 40 vezes.
  2. Eles são minhas únicas instâncias do tipo c4.xlarge ou m4.xlarge . Originalmente, eles eram todos c4.xlarge , mas eu os substitui por m4.xlarge para tentar isolar o problema. Parece ser menos freqüente com o m4.xlarge , mas eu ainda vi 3 ou 4 ou mais falhas por dia entre os 10 servidores da web. Geralmente, vejo cada ocorrência de falha pelo menos uma vez por dia, em momentos aparentemente aleatórios.

Essas instâncias estão executando o Apache 2.4.x, o mod_php 5.6.11 e o memcached 1.4.24, mas eu tenho outras máquinas recebendo menos tráfego em um tipo de instância menor que é perfeitamente estável.

Não tenho certeza se está relacionado, mas todas essas máquinas estão vendo periodicamente ifquery segfaults, por exemplo:

/var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [   22.592488] ifquery[476]: segfault at 1 ip 0000000000403187 sp 00007ffde8596050 error 4 in ifup[400000+d000]
/var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [   23.593774] ifquery[510]: segfault at 1 ip 0000000000403187 sp 00007ffde6087b90 error 4 in ifup[400000+d000]
/var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [   24.594994] ifquery[531]: segfault at 1 ip 0000000000403187 sp 00007ffe70747a50 error 4 in ifup[400000+d000]
/var/log/syslog:Dec 17 14:04:12 xxx-web-3a kernel: [    2.623024] ifquery[367]: segfault at 1 ip 0000000000403187 sp 00007ffefc980f60 error 4 in ifup[400000+d000]

Um sistema, antes do c4.xlarge - > m4.xlarge migration, viu um General Protection Fault registrado uma única vez no log do console do sistema, mas não vi isso novamente.

Eu não estou vendo esses segfaults em minhas outras máquinas 15.10 que não estão falhando.

Essas são todas as instâncias de redes avançadas com Intel 82599 10G Ethernet, que suspeito que possam contribuir para o problema, mas eu tenho outras máquinas (de tráfego muito menor) com o mesmo adaptador executando 15.10 sem nunca quebrar.

Alguém está vendo problemas semelhantes ou tem alguma idéia para depurar ou consertar isso? Obrigado!

Editar

Olhando para o registro do console, um dos meus sistemas que falhou com frequência relatou uma falha de proteção geral logo antes de reinicializar:

[171009.844097] general protection fault: 0000 [#1] [ 0.000000] Initializing cgroup subsys cpuset
    
por Will 04.01.2016 / 00:31

0 respostas