Bem… um fantasma mora no meu servidor

4

Olá a todos os membros e saudações da Grécia

Eu tenho uma situação bastante incomum e estou ficando sem ideias. Eu tenho este servidor antigo (IBM x205 - P4 2.4Ghz, 3xSCSI 36gb) e cerca de um ano atrás, decidi usá-lo como um controlador de domínio adicional e fax & servidor de arquivos. Para esta tarefa eu tive um cartão Delock 70154 SATA juntamente com 2x320 SATA II HDDs

Tudo estava indo muito bem até cerca de três semanas atrás. Eu estava em uma viagem e fui informado quando voltei que o servidor foi encontrado congelado. Bem, eu considerei que era uma falha desde um simples desligar / ligar tudo fixo. Mais uma vez, duas semanas atrás, outra situação de congelamento. Ele ficou suspeito, mas novamente depois de um desligamento / ligar tudo estava funcionando.

Mais uma vez ele congelou e, quando eu liguei, veio uma mensagem dizendo que os serviços do domínio não puderam ser iniciados devido à corrupção do NTDS. A inicialização em modo de segurança revelou que houve um problema com o SATA Raid (degraded).

Depois de muita pesquisa, eu degradai o servidor, limpei o Active Directory, tirei ambos os HDDs (um deles era realmente BAD) e recuperei meus arquivos (eu tive alguns problemas com o Delock lida com o HDD redudante).

Neste momento, o meu servidor é simples, com apenas o que a fábrica instalou. Aqui é onde a diversão começa. Todos os dias, quando chego ao escritório, acho essa máquina em particular morta e quero dizer, totalmente morta. Apenas uma tela preta e nada mais. O ventilador da CPU está funcionando, a PSU está funcionando. O teclado e o mouse estão mortos (eles também bloqueiam meu KVM), assim como a rede. A máquina está morta.

Eu o ponho com força e depois o energizo. Durante as 8 horas em que estou no escritório, ele funciona, seja em marcha lenta ou executando algum tipo de diagnóstico. Quando saio do escritório, depois de algum tempo (talvez depois de 30 minutos, talvez depois de 4 horas) a máquina morre. Esta é a informação que o log de eventos mostra

"the previous shutdown at xx:xx:xx was unexpected"

Eu tentei o seguinte: Memtest: nada apareceu Passmark burn in test: nada apareceu Estudo cuidadoso do log de eventos: nada de interesse que eu possa ver Defina a opção de não iniciar automaticamente após uma falha para que eu possa ver BSODs: nada a ver O esquema de energia está definido para nunca dormir.

Eu sei que existem muitas outras ferramentas que enfatizam strongmente uma máquina como o OCCT, mas a máquina é antiga. Hoje eu lhes darei uma tentativa no entanto. Uma idéia é reformatá-lo, mas eu realmente gosto de encontrar o que está causando isso, porque eu poderia chegar a uma situação em que tudo está funcionando por um tempo e, em seguida, kaboom, um dia, novamente, está morrendo. Eu realmente preciso de uma mão amiga e toda opinião / idéia é bem-vinda. Eu sei que a solução óbvia é nunca sair do escritório, mas tenho uma vida. Desculpe servidor. :)

P.S Esta situação com a máquina morrendo já dura cerca de uma semana. Todos os dias gostaria de definir o RAID para reconstruir ou para copiar / recuperar arquivos e enquanto everythig estava trabalhando

    
por tsgiannis 30.12.2010 / 07:10

5 respostas

6

Soa como um servidor muito antigo. Também parece que está morrendo uma morte lenta e dolorosa. Há uma razão pela qual a maioria dos departamentos de TI substitui o hardware após um determinado período de tempo. A razão é porque custa muito dinheiro para suportar hardware antigo. Eu estou apostando que o servidor que você tem é 6-8 anos de idade. Livre-se disso. Será mais problema do que vale a pena. Você provavelmente tem uma placa-mãe ruim ou um processador ruim. Você provavelmente não será capaz de encontrar um novo, então você terá que comprar peças usadas. Com as peças usadas, você não sabe se está introduzindo novos problemas em seu servidor. Como eu disse, apenas se livre disso. Não vale o esforço / tempo / dinheiro que você vai ter para colocar nele.

    
por 30.12.2010 / 07:29
2

Bem, eu encontrei o fantasma ..... demorou algum tempo, mas eventualmente eu consegui. O problema foi devido a capacitores vazados ... um deles decidiu que é hora de parar de desperdiçar meu tempo e tirar seus fluidos ... Então espero que seja hora de algo novo ....:)

    
por 24.01.2011 / 06:59
1

Se tiver mais de 3 anos, despeje-o - se não, use a garantia e conserte-o.

A solução de problemas de hardware é para entusiastas de modificação de hardware - não há um caso de negócio válido para fazer isso nesse nível. Mesmo o mais simples dos serviços de TI deve ser alimentado por hardware confiável ou o serviço não será confiável.

O menor consumo de energia de um servidor x86 mais moderno faria com que a compra de um novo servidor low-end fosse válida se você fizer as contas (a menos que seu poder seja de alguma forma livre).

    
por 30.12.2010 / 09:57
0

Vou tentar fazer algumas estatísticas para o uso da cpu e mem, remotamente. Eu sou o tipo de pessoa que dá outra chance ao hardware antigo.

Então, faça algumas estatísticas, talvez o seu processador esteja superaquecendo. Limpe o dissipador de calor, substitua a pasta térmica e veja.

HTH

    
por 30.12.2010 / 08:07
0

Como afirmei em um comentário, concordo que é interessante corrigir o problema, evitar o lixo desnecessário e aprender novas lições para o futuro.

Um servidor antigo como esse ainda pode ser exibido muito bem para stasks menos importantes, como você está fazendo como controlador de domínio AD, talvez seja um pouco extremo usá-lo como servidor de arquivos.

Foi muito útil para mim usar um CD de instalação do OpenSUSE apenas para usar os testes de disco e memória RAM. Testar o hardware em busca de erros é realmente importante.

Então, eu realmente consideraria limpar o contato da RAM (normalmente uso uma borracha que é mais barata do que alguns produtos).

    
por 30.12.2010 / 10:02

Tags