A empresa onde eu trabalho comprou apenas 3 servidores PowerEdge 2970 e todos eles têm o mesmo problema.
- O servidor vale a pena comprar ou os problemas que o acompanham não valem a pena?
- Existem muitos problemas com o uso de processadores AMD (é um Opteron)?
- Vocês são capazes de apontar o problema se eu der detalhes sobre quais erros eu recebo nos logs de eventos?
Aqui está o problema:
1.Power no servidor. Ele inicializa na tela inicial do chapéu vermelho.
2. No meio da inicialização, o servidor trava com os seguintes erros:
-CPU Machine Chk: processor sensor, transition to non-recoverable was asserted
-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 1 FUNC 0)
Depois tentei atualizar o BIOS e o BMC, mas o problema ainda estava lá.
Depois disso eu tentei atualizar o sistema operacional (ele tinha Red Hat Enterprise 5.1) para o Red Hat 5.3
Havia algo estranho lá também. Eu inicializei o servidor com o utilitário Construir e atualizar, em seguida, selecione instalar o sistema operacional. Selecionei empresa de chapéu vermelho 5.3 x86_64. Ele me questionou sobre a mídia x86_64, então coloquei o disco que dizia: disco suplementar 1 de 1 para AMD64 de 64 bits e Intel 64. Ele dizia disco errado. Então eu usei o disco que dizia: disco de instalação 1 de 1 para Intel Itanium de 64 bits. Meu palpite é que é o disco que eu precisava usar o tempo todo.
Depois disso, o sistema conseguiu inicializar a tela de login da linha de comando. Eu entrei e digitei: startx para entrar no ambiente do gui. Nesse ponto, menos de uma página de texto rolou rápido e o servidor travou sem mostrar nada relacionado a gui.
Nesse ponto eu tive dois erros diferentes (note que o dispositivo agora tem 4 anos, vai verificar qual dispositivo é):
-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 4 FUNC 0)
-PCI Sytem Error:critical event sensor, PCI SERR(BUS 0 DEVICE 4 FUNC 0)
Então, hoje a tecnologia cara veio com um monte de peças e, basicamente, reconstruiu o servidor (riser PCI, placa mãe, DIMMs, um cartão SAS e outra coisa que eu não consigo descobrir em cima da minha cabeça) no local, mas depois que a os problemas foram ainda piores. Alguns desses erros foram (lembre-se que nesse momento ele estava colocando de volta algumas das partes originais, então as coisas ficaram confusas):
Erro ECC uncorr: o sensor de memória, ECC incorrigível (DIMM1 DIMM2) foi ativado.
Poder do núcleo de E1231 1.2V HT GD
E1911 < 3 ERROS log de verificação
E1000 à prova de falhas
Amanhã ele está voltando com uma fonte de alimentação ...
UPDATE: Parece que eu não posso perder mais tempo com isso. Estamos ligando para o pessoal de vendas e solicitando novos servidores.