Ubuntu Server 10.04 Tráfego pesado na rede causa desconexão

2

Atualmente estou executando um servidor Ubuntu 10.04 sem cabeça. Instalado é a pilha LAMP, Joomla, Virtualbox, phpvirtualbox, webmin e proFTP .. Ele resolve o endereço IP para que eu possa acessá-lo remotamente (o servidor web apache2 ou o FTP) usando DDClient. Todos os pacotes instalados foram instalados usando o apt-get. O Webmin, embora desencorajado no Ubuntu Server, é usado principalmente para administrar o aspecto do servidor da web. Esse problema também apareceu quando eu estava usando o Ubuntu Server 10.10.

Após períodos de tráfego de rede intenso, seja local ou remoto, a conexão cai. Eu estou falando especificamente sobre a transferência de arquivos via FTP, SCP ou Samba (o último dos quais eu raramente uso). Não há resposta para ping ou ssh. Não consigo FTP para o servidor nem posso carregar o site. Há momentos em que o servidor está ligado há alguns dias e tudo corre bem porque não o acessei muito, se é que o faço (portanto, não há muito tráfego de rede).

Eu passei por algumas alterações de hardware, embora não acredite que isso tenha causado o problema: isso vem acontecendo muito antes de eu fazer qualquer alteração. No começo eu pensei que era o tráfego de bloqueio do roteador fornecido pelo ISP devido a algum tipo de configuração incorreta (talvez supondo que fosse algum tipo de ataque DoS). Eu mudei de roteador e ainda não encontrei sucesso. Eu verifiquei syslog, dmesg e kern.log para avisos, mas não descobri nenhum. Eu corri o memtest através do menu do GRUB2 na inicialização e uma vez que ele gerou 4 erros. Eu corri novamente com varas individuais de RAM em vários slots e tudo acabou bem. Eu olhei através das configurações da BIOS e tudo parece bem. Eu tentei desconectar peças de hardware desnecessárias (outros discos rígidos internos, unidades de CD, disquete, placas PCI, etc.).

Qualquer ajuda ou dicas sobre como eu posso começar a solucionar isso seria muito apreciada. Por favor, note que eu só comecei a jogar com servidores como hobby, então meu conhecimento não seria o mais refinado. Estou confortável com a linha de comando e tenho a iniciativa de saber procurar algo que não posso fazer. Infelizmente eu não consigo encontrar nenhum problema como este.

Adicionalmente: Se uma solução não puder ser encontrada, alguma ajuda para escrever um script que fará com que o servidor seja reinicializado automaticamente se, após x minutos, ele não obtiver resposta ao ping em algum lugar como o google. É verdade que essa não é a solução mais limpa se a minha internet acabar caindo, mas não consigo pensar no que mais fazer.

    
por K Vaughan 19.12.2010 / 04:07

4 respostas

0

Se o servidor for completamente 100% interrompido, um script de reinicialização automatizado pode não ajudar: a menos que a reinicialização aconteça antes do travamento, você está preso, pois o travamento provavelmente afetará o processo que pretende chamar o script de reinicialização. / p>

Uma reinicialização regular via cron pode ajudar, se estiver regular o suficiente para acionar antes de qualquer interrupção, mas isso seria tratar os sintomas e não a causa. Você pode acionar a reinicialização de outra máquina (se detectar que o servidor está parando de responder), mas isso provavelmente exigirá uma compra de hardware na forma de uma fonte de alimentação / controlador que pode ser alternada de uma máquina para forçar a outra a energizar. / p>

Eu recomendaria a instalação de algum tipo de ferramenta de monitoramento e a verificação para ver o que acontece imediatamente antes que os problemas ocorram (por exemplo, antes que novas conexões parem de ser aceitas). Eu uso collectd (com um script CGI personalizado para representar graficamente os resultados registrados) para monitoramento geral, embora existam várias outras opções populares. A execução dessa ferramenta de monitoramento com configurações padrão (monitoramento do uso da CPU, uso da memória, E / S de disco, leituras de temperatura e assim por diante) ajudará você a identificar coisas óbvias como uma explosão súbita de atividade da CPU (que pode implicar um script incorreto ou DoS situação) ou creeping memória / swap uso (o que pode implicar um vazamento de memória em algum lugar, ou no caso do Apache e serviços similares uma configuração de alocação de trabalho que é inadequado para o tamanho da máquina), um aumento súbito de temperatura (o que pode implicar uma questão de circulação, pouca ventilação ou outras condições ambientais externas que fazem parte do problema) e assim por diante. Se um problema genérico como esse for identificado, você poderá adicionar um monitoramento mais detalhado para analisar uma causa mais específica.

Além disso, instale e configure o smartd se ainda não tiver feito isso. Isso pode ajudar a rastrear o problema se estiver relacionado a uma unidade que esteja desenvolvendo (ou já tenha) um problema sério.

Em qualquer caso, verifique os suspeitos usuais em / var / log após um travamento - você pode encontrar algumas pistas registradas em lugares como / var / log / messages e / var / log / syslog (ou similar) logo antes do máquina pára de responder. Se nada na própria máquina parar quando as conexões remotas começarem a falhar, talvez você tenha uma placa de rede inválida que está travada (mas deixando o resto da máquina OK) e permanecendo nesse estado interrompido até que a máquina seja reinicializada ou desligada.

Mais especificamente: seus testes de RAM mostrando alguns erros em uma ou duas ocasiões tornam a RAM ou o resfriamento bastante provável. Você poderia ter uma memória RAM "um pouco" que geralmente funciona e passa nos testes, mas ocasionalmente vira bits e causa problemas, ou você pode ter um problema de RAM sensível à temperatura (tudo está bem até o calor atingir um certo ponto), ou poderia ser um problema de aquecimento / resfriamento mais geral. Seu processador ou outros chips centrais também podem estar com problemas de aquecimento que resultariam em efeitos intermitentes semelhantes.

    
por 19.12.2010 / 05:12
0

Esta pode não ser a razão para você, mas eu tenho visto isso em 10.04 LTS por algum tempo ao usar o dhcp. No entanto, ao definir o endereço da interface como um endereço estático, o problema desaparece.

Eu sei que tem sido um problema com 10.04 LTS, porque eu já vi isso acontecer em pelo menos 1 PC e 2 servidores com Intel NIC. Também devo salientar que esta questão parece ser resolvida para mim com a mais recente versão do servidor Ubuntu 10.04 LTS. Eu acredito que seja a build 3 ou 4 disso.

link

Por enquanto, verifique se você não está usando o DHCP para atribuir o endereço, mesmo que o servidor DHCP esteja configurado para fornecer sempre o mesmo endereço. Em vez disso, configure-o estaticamente em / etc / network / interfaces

    
por 03.05.2012 / 01:09
0

Problema semelhante com o Apache / PHP no RHEL5.x: suspensão e acesso ao console / ssh impossíveis. Log / var / log / messages reportado "[...] httpd invocou oom-killer [...]"

A solução foi adicionar mais memória, habilitando o KDump w / panic_on_oom e criando limites de processo Apache / PHP mais apropriados. Sem problemas desde. O KDump w / panic_on_oom reiniciou automaticamente o sistema impedindo um travamento. No entanto, a correção real foi limitar o Apache / PHP. Os padrões, esp. para PHP, eram muito abertos e não seguros. Existem inúmeros recursos online para proteger o PHP, por isso não vou tentar recriar um aqui.

    
por 04.09.2012 / 22:43
-1

Acredito que isso se deva aos serviços que sobrecarregam muito os recursos do sistema. Outra solução possível é verificar quantas conexões possíveis você pode ter com seu servidor da Web e / ou quantos hosts podem usar o roteador.

    
por 23.08.2015 / 00:25