congelamento de servidores Debian

2

Eu apelo antecipadamente por não ser o administrador adequado, eu sou apenas um programador com um servidor no qual eu instalei o Debian Etch plus mysql, php, apache e ISPConfig.

Então, ele teve um uptime de mais de 900 dias sem um único problema (não há carga importante nele, apenas alguns de nossos serviços), e então começou a se comportar mal - de repente ele congela (somente o ping é trabalhando, nada mais) e quando eu tento reiniciá-lo através da interface do ISP, ele congela completamente. Então eu tenho que solicitar suporte para um reinício manual. Depois disso, funciona bem por alguns dias, então a mesma coisa acontece novamente (isso aconteceu três vezes até agora).

Agora eu executei uma inicialização de rede e executei fsck (encontrei 1,1% não contíguo) e espero que ajude

A minha pergunta é que alguém teve uma experiência semelhante e o que poderia estar causando esse problema (quando apenas o ping funciona)?

Além disso, procurei no log do sistema, mas não encontrei nada que pudesse indicar um problema. Existe algum outro log que eu deveria investigar?

obrigado por muitas respostas!

Desculpe, ainda não me registrei, então não tenho opção de votar. Mas obrigada!

Primeiro, para limpar o problema, este é um servidor hospedado, e há uma função de inicialização / redefinição / redefinição manual de rede no suporte do ISP.

É provavelmente uma questão de HDD, já que - depois do fsck - tudo parecia funcionar bem, até que eu olhei mais fundo e percebi que apenas a primeira página funciona, enquanto outros não (as páginas dão erro 'proibido 403' ou apenas uma página em branco ou erro no mysql ...).

O SSH também parece funcionar, mas na verdade não funciona: posso tentar fazer login e ele recusará a senha errada, mas quando eu digito a senha correta - a conexão é fechada.

Vou tentar acessar os arquivos mais uma vez através de inicialização de rede e backup, tanto quanto possível, então terá que substituir o disco ...

É possível clonar um disco com erros nele? Vale a pena tentar, afinal?

ATUALIZAÇÃO: Hoje (um dia depois de eu fazer a pergunta), descobriu-se que o HDD é definitivamente defeituoso. Mais uma vez, obrigado pelo seu tempo e ajuda!

    
por Milos 12.01.2012 / 01:11

2 respostas

2

Supondo que este é um servidor físico dedicado:

Da próxima vez que congelar, você deverá fazer com que sua empresa de hospedagem conecte um "carrinho de parada" e veja o que está na tela (console), ou vá para baixo. Da próxima vez que começar a agir, se você conseguir fazer o login, digite "dmesg" e procure por mensagens de erro; inclua-os editando sua pergunta e colando-os ou usando pastebin.

Eu tirei fotos com uma câmera digital ou celular no passado para referência futura ou para mostrar para alguém remotamente. Qualquer mensagem séria do kernel provavelmente estará na tela (depende de como o log está configurado); sem essa informação, as respostas que você recebe serão essencialmente palpites.

Meu palpite é uma falha no disco rígido; traga um CD inicializável (o Ubuntu é provavelmente o mais fácil) e execute smartctl -A insira o caminho do dispositivo do disco rígido aqui . Você obterá uma lista de parâmetros de integridade da unidade e, mais importante, um log de erros da unidade, se houver.

Além disso, ignore a pessoa que sugeriu fazer uma atualização do SO. Esse é um conselho excepcionalmente perigoso.

Atualizar : Sim, é possível clonar uma unidade danificada, se você não tiver backups bons ou recentes. Olhe para o GNU ddrescue. É uma ferramenta avançada, no entanto. Se o dinheiro estiver em jogo, envie-o para recuperação, ou pelo menos contrate um administrador de sistema profissional com experiência em recuperação de dados.

    
por 12.01.2012 / 07:10
1

É possível que este seja um problema de hardware. Erros de disco ou memória, superaquecimento (ventilador entupido ou ventiladores de ar), placa de rede que saiu mal. A menos que haja algum erro de hardware, então, como uma primeira coisa, eu atualizaria o sistema para o lenny, e depois o squeeze. É possível corrigir automaticamente seus problemas.

Eu também examino o sistema em busca de badblocks (esse é o nome do comando). Em mkfs.ext3 existe a seguinte opção:

-c     This option causes e2fsck to use badblocks(8) program to do a read-only scan of the device in order to find any bad 
       blocks.  If any bad blocks are found, they are added to the bad block inode to prevent them from being allocated to
       a file or directory. If this option is specified twice, then the bad block scan will be done using a 
       non-destructive read-write test.

Assim, você poderá evitar erros de disco causados por blocos ruins.

Considere também a execução de um teste de memória usando memtest86 ou memtest86 +. Se encontrar erros e você se sentir aventureiro, pode usar a saída do memtest para alimentar o kernel e mapear qualquer memória ruim: link

Eu sei que de fato funciona muito bem. Certa vez tive um dimm ruim que previsivelmente travaria e queimaria o sistema em algum momento da alocação de memória. Depois de usar o memtest e encontrar a área de memória ruim, usei o parâmetro do kernel badram para mapear e resolvi o problema.

    
por 12.01.2012 / 01:41