Maneiras alternativas de detectar serviços pendurados do OpenStack / Linux?

1

Tenho notado em alguns dos meus servidores linux que um serviço linux será suspenso. A única maneira de saber se ele está travado é que as operações que dependem do serviço falham e, quando eu reinicio o serviço, ele não consegue parar, mas ele é iniciado corretamente.

Se eu service <servicename> status diz que está em execução, Se eu fizer um ps -ef | grep <servicename> , ele mostrará apenas um processo em execução para esse serviço, que está correto.

Mais alguma coisa que eu posso verificar para saber se está suspenso ou não? Eu estou tentando ser proativo sobre trazer esses serviços de volta e também determinar por que eles estão ficando pendurados.

Para referência, os serviços são principalmente openstack-nova-compute e openstack-cinder-volume. O serviço de volume cinder que eu posso detectar com o rabbitMQ começando a se acumular, mas a mesma coisa não acontece para a nova-compute.

Isso é muito difícil de testar porque, como eu disse, a única maneira que eu sei é se eu tento fazer algo nesse nó no OpenStack e ele falha ou fica parado e, em seguida, reinicio o serviço. Eu tenho um script em execução para testar alguns serviços do OpenStack, mas com o scheduler nova pode demorar um pouco para colocar uma instância nesse host, ou o host pode estar cheio, então ele nunca colocará outra instância nesse host.

    
por huan0602 30.10.2015 / 14:47

2 respostas

1

Use soluções de monitoramento como o Zabbix ou o Nagios, escreva scripts / cheques para serviços, incluindo a existência do processo de monitoramento, o uso da CPU do processo, o uso da memória do processo, as respostas da API, etc.

    
por 28.02.2016 / 07:35
0

Você pode escrever um script (um cron job?) que verifique o registro de data e hora dos logs dos serviços do OpenStack que você deseja monitorar. Acho que a maioria dos serviços realiza algum tipo de auditoria e registra. Além disso, qualquer operação deve gerar logs. Dessa forma, se os registros não forem atualizados após algum tempo, você poderá tentar reiniciar o serviço.

E, como você mencionou, determinar por que eles estão sendo enforcados deve ser crítico.

    
por 28.02.2016 / 07:19