Eu comprei um Poweredge T610 usado e o atualizei para 2x processadores Hexcore Xeon X5675 e 96 GB de RAM. Inicialmente, eu usei 3 unidades WD Green 2TB em um array RAID-5 (controlador Perc6i) e instalei o servidor Ubuntu no disco virtual. Essa configuração me serviu bem por cerca de um ano e, em seguida, os problemas começaram:
Comprei algumas unidades novas para expandir como uma segunda matriz - 4 unidades vermelhas de 3 TB da WD. Enquanto isso, eu aprendi que pelo menos o WD green não é uma boa escolha, então eu queria fazer backup de alguns dados no novo VD. Acontece que o Perc6i não gosta de unidades > 2TB, mas reconheceu o primeiro 2 de 3 TB. Eu ainda não tinha começado a configurar um VD com as novas unidades, mas 3 semanas depois, meu array verde WD começou a corromper (primeiro apenas alguns glifos estranhos em alguns softwares, depois problemas mais graves até a seqüência de inicialização corrompida). Acabei com um serviço profissional de recuperação de dados que felizmente poderia me ajudar.
Troquei o Perc6i por um H700 e configurei um conjunto RAID6 de 4 unidades vermelhas de 3TB WD (que testei com o teste estendido de diagnósticos de hardware da Dell antes da configuração - sem erros em nenhum deles). Instale o Ubuntu, todos os softwares que eu preciso, o x2go, etc ... Ligue e volte a funcionar.
Agora eu recebo o mesmo problema de antes - no X2go ele começa com o mesmo software (bioemformatics artemis package) cuspindo glifos na linha de comando e parece que estou voltando à estaca zero. Todos os LEDs de status nos caddies são verdes constantes, ou seja, online. Nenhuma falha prevista que o sistema reconheça pelo menos.
Estou começando a me perguntar qual seria o problema:
O que eu não acho provável:
- falha no disco primário (novamente!), uma vez que as unidades eram novas, não tinham setores defeituosos após testes estendidos e não tinham muito tempo de ativação.
-o controlador perc6i foi trocado por um H700 após o primeiro desastre e não deve ser o problema
O que eu preciso de ajuda para avaliar:
Problemas de backplane / cabo?
(O controlador H700 veio com cabos para outro tipo de servidor que não se encaixava no meu caso - simplesmente usou outro cabo SATA6 para conectar o controlador ao backplane)
As unidades estão, por sinal, nas mesmas baias que as anteriores, com um cabo SATA original da Dell indo para lá.
- Problemas na placa mãe?
Problemas de CPU ou RAM?
- Fornecimento de energia (picos de tensão ??)
Alguém já teve um problema semelhante antes? Qualquer ajuda aqui é muito apreciada. Infelizmente eu estou ausente por mais duas semanas antes que eu possa ter acesso ao servidor (fisicamente e em rede), o problema foi "relatado" por minha esposa, que trabalha com o servidor em nossa rede local (mas infelizmente não será capaz de ajudar na solução de problemas).
Sim, executei o procedimento completo de diagnóstico de hardware da Dell, sem problemas. Apenas uma das unidades foi detectada com blocos defeituosos, mas não consegui reconstruir a matriz da raid 5, daí o especialista em recuperação de dados.
Todo o outro hardware foi ok
Pergunto-me se poderia haver problemas inconsistentes, como contatos problemáticos em qualquer lugar, que possam passar pelos testes em um ponto e falhar em qualquer outro momento. Ou se os testes não cobrem todos os cenários ...