O servidor remoto trava, fica preso. Como depurar?

5

Eu tenho um vps rodando no VmWare ESX com o Ubuntu 8.04 LTS. Tem sido executado sem problemas nos últimos 3 meses, no entanto, recentemente, notamos dois bugs estranhos.

a. O servidor trava, hoje foi a segunda vez. A natureza do jeito é muito estranha. Eu posso pingar para o servidor servidor, ele envia de volta a resposta bem. No entanto, todos os outros serviços, como o sshd, o apache, o mysql, etc., não respondem. Quando trabalhando,

telnet servername 22
Escape character is '^]'.
SSH-2.0-OpenSSH_5.X Debian-5ubuntu1

E outros serviços da Web seriam executados corretamente. Quando está suspenso, posso fazer conexões tcp para 22 e 80, mas não recebo nenhuma resposta.

telnet servername 22
Escape character is '^]'.

Como posso depurar este problema? Existe algum daemons que eu possa executar que registrará o status periodicamente? Por favor, me diga como proceder.

b. O outro problema estranho é que, ultimamente, não consigo transferir arquivos maiores que 100KB, arquivos menores com cerca de 1-2 KB de arquivos de trabalho.

scp anotherserver:filename .

ou

wget http://www.example.com/file

ficaria preso. Ainda restam cerca de 6 GB de espaço, então não acho que isso seja um problema. Quaisquer ponteiros onde eu deveria olhar?

    
por bibstha 31.03.2010 / 06:07

2 respostas

3

Sugiro usar sar do pacote sysstat (ou atsar ). Isso é executado a cada 10 minutos como uma tarefa do cron e faz uma observação das estatísticas vitais do seu servidor - uso da memória, utilização da CPU, atividade do disco, atividade da rede, etc.

Você usa assim:

Mostrar atividade do processador (o padrão) sar -p (ou apenas sar )

Mostrar estatísticas de memória ("ram")
sar -r

Mostrar as estatísticas de memória a partir do 27º sar -r -f /var/log/sysstat/sa27

Observe que o caminho varia de acordo com sua instalação. Em sistemas baseados em redhat, os arquivos geralmente estão em /var/log/sa/ , enquanto se você tiver o pacote atsar instalado, eles estarão em /var/log/atsar/ - mas o padrão é que o arquivo terminará em um número que represente o dia do mês em que os dados foram coletados.

Algumas versões (como atsar ) permitem que você simplesmente especifique o dia: sar -n 27 . Verifique a página manpage que veio com a sua instalação para descobrir a sintaxe correta e quais dados você pode recuperar.

Uma vez que você tenha instalado e executado (e provavelmente já o tenha feito!), você poderá usar as informações que coletar para ter uma ideia do que estava acontecendo imediatamente antes do acidente. Por exemplo, se o relatório mostra a sua memória para ser exhaused e livre contagem regressiva para zero, então você terá uma boa idéia do que procurar.

Com as informações em mãos, você pode configurar relatórios adicionais para ter uma ideia melhor do que está errado: por exemplo, você pode escrever um pequeno script que examina certas estatísticas do sistema (como o conteúdo de /proc/meminfo ou /proc/loadavg ) e se as condições de disparo forem atendidas, talvez acrescente as informações de depuração apropriadas (como a saída de ps auwwxf ) a um arquivo ou envie as informações por e-mail para você.

    
por 31.07.2010 / 10:46
0

Verifique se você não tem erros de rede (monitore o servidor ESX com SNMP ou WMI / CIM / WBEM). Instalar / reinstalar o VMware Tools. Verifique se você não tem problemas de armazenamento. Quando a VM não está respondendo, você consegue usar o console da VM? Verifique se as VMs não estão trocando na interface do ESX.

    
por 31.03.2010 / 06:24