Problemas com o meu poweredge 2970

5

A empresa onde eu trabalho comprou apenas 3 servidores PowerEdge 2970 e todos eles têm o mesmo problema.

  1. O servidor vale a pena comprar ou os problemas que o acompanham não valem a pena?
  2. Existem muitos problemas com o uso de processadores AMD (é um Opteron)?
  3. Vocês são capazes de apontar o problema se eu der detalhes sobre quais erros eu recebo nos logs de eventos?

Aqui está o problema:

1.Power no servidor. Ele inicializa na tela inicial do chapéu vermelho.
2. No meio da inicialização, o servidor trava com os seguintes erros:

-CPU Machine Chk: processor sensor, transition to non-recoverable was asserted
-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 1 FUNC 0)

Depois tentei atualizar o BIOS e o BMC, mas o problema ainda estava lá. Depois disso eu tentei atualizar o sistema operacional (ele tinha Red Hat Enterprise 5.1) para o Red Hat 5.3 Havia algo estranho lá também. Eu inicializei o servidor com o utilitário Construir e atualizar, em seguida, selecione instalar o sistema operacional. Selecionei empresa de chapéu vermelho 5.3 x86_64. Ele me questionou sobre a mídia x86_64, então coloquei o disco que dizia: disco suplementar 1 de 1 para AMD64 de 64 bits e Intel 64. Ele dizia disco errado. Então eu usei o disco que dizia: disco de instalação 1 de 1 para Intel Itanium de 64 bits. Meu palpite é que é o disco que eu precisava usar o tempo todo.

Depois disso, o sistema conseguiu inicializar a tela de login da linha de comando. Eu entrei e digitei: startx para entrar no ambiente do gui. Nesse ponto, menos de uma página de texto rolou rápido e o servidor travou sem mostrar nada relacionado a gui.

Nesse ponto eu tive dois erros diferentes (note que o dispositivo agora tem 4 anos, vai verificar qual dispositivo é):

-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 4 FUNC 0)
-PCI Sytem Error:critical event sensor, PCI SERR(BUS 0 DEVICE 4 FUNC 0)

Então, hoje a tecnologia cara veio com um monte de peças e, basicamente, reconstruiu o servidor (riser PCI, placa mãe, DIMMs, um cartão SAS e outra coisa que eu não consigo descobrir em cima da minha cabeça) no local, mas depois que a os problemas foram ainda piores. Alguns desses erros foram (lembre-se que nesse momento ele estava colocando de volta algumas das partes originais, então as coisas ficaram confusas):

Erro ECC uncorr: o sensor de memória, ECC incorrigível (DIMM1 DIMM2) foi ativado.
Poder do núcleo de E1231 1.2V HT GD
E1911 < 3 ERROS log de verificação
E1000 à prova de falhas

Amanhã ele está voltando com uma fonte de alimentação ...

UPDATE: Parece que eu não posso perder mais tempo com isso. Estamos ligando para o pessoal de vendas e solicitando novos servidores.

    
por yan bellavance 12.02.2010 / 00:39

6 respostas

3

Eu encontrei problemas semelhantes com a Dell ultimamente. O suporte técnico não parece estar diretamente associado aos erros com a parte com falha. Muito do tempo que eles apenas enviam o que eu gosto de chamar de "Eu não tenho idéia do que é errado peças Pack". Geralmente consiste em Systemboard, PCI riser, substituição de memória e, às vezes, substituição de CPU e controlador RAID.

Uma coisa que muitas vezes esquecem de substituir é o riser para o cartão PERC integrado. E eu vi esse ser o problema algumas vezes.

De qualquer forma, como comentei antes, a menos que você esteja com pressa para implantar esses servidores, entre em contato com o atendimento ao cliente da Dell e exija que todos os três servidores sejam substituídos ou reembolsados.

    
por 12.02.2010 / 18:09
2

Eu já vi isso com cartões RAID ruins antes. Eu sugeriria

1) puxando todas as cartas que você pode e ver se ele pode arrancar e, mais importante:

2) CHAMADA DELL. O suporte técnico corporativo deles é realmente bom e, honestamente, parece que você tem um erro de hardware.

    
por 12.02.2010 / 01:03
1

Tanto quanto suas perguntas ...
1) Isso é completamente subjetivo. 2) Opterons deve ser tão confiável quanto uma parte da Intel 3) Você precisará fazer a pergunta primeiro

Quanto ao problema que você postou, eu começaria executando Memtest nele se você quiser solucionar problemas (soa como um mensagem de erro de memória - os números de dispositivos e barramento PCI devem informar especificamente a você). Por outro lado, eu simplesmente insistiria que os representantes de suporte corrigissem o problema com os servidores que eles vendiam para você.

    
por 12.02.2010 / 00:50
1

Bom para descartar o sistema operacional primeiro. Tente instalar o servidor do Windows. O Windows tem o suporte de driver mais amplo. Se o Windows não conseguir instalar, você tem certeza de que provavelmente há alguma falha de hardware. Se você não tem uma cópia disso, então o servidor ubuntu funciona bem na maioria dos hardwares, até onde eu sei.

Tivemos um servidor que se recusou a instalar uma distro linux muito comum. Assim que eu coloquei o servidor ubuntu, ele funcionou pela primeira vez. Talvez em algum momento Redhat esteve lá e trabalhando, mas uma atualização do kernel não teve sucesso?

Você pode querer também tentar configurar o BIOS para os padrões. Além disso, tente reinicializar as unidades RAID e configurá-las novamente.

    
por 12.02.2010 / 01:08
1
  1. Ligue para a Dell - se o servidor estiver na garantia, eles deverão solucionar esses erros facilmente
  2. Se você não tiver uma garantia, ainda poderá ligar para a Dell para solucionar problemas e determinar as peças que precisam ser substituídas
  3. Esse erro geralmente indica um problema com CPU ou MB. Se você tiver mais de um processador, tente iniciar o sistema com uma única CPU no primeiro soquete. Se isso falhar, tente o mesmo com outra CPU. Além disso, em geral, é sempre bom desmontar o sistema para uma configuração de hardware mínima que permita o POST, ou seja, remover todos os HDDs, controladores e periféricos, deixar apenas uma única CPU e DIMM de memória, e se isso não acontecer ajuda, você provavelmente tem um problema no MB. Se a configuração do min2POST for POSTADA com sucesso, comece a adicionar as partes de volta, até encontrar o erro - isso ajudará você a identificar a parte ofensiva
por 12.02.2010 / 08:53
1

Vou dar o segundo passo para uma sugestão de sistema operacional diferente, mas o que eu realmente estaria fazendo neste momento do exercício é gritar ao telefone com meu representante de vendas sobre como eu quero que esses servidores sejam substituídos agora . Você acabou de comprá-los, eles são novos, então eles devem ser cobertos pela garantia de vendas padrão que a Dell é legalmente obrigada pela lei do consumidor a ter, independentemente do plano de manutenção / suporte que você escolheu.

Parece-me que você está recebendo uma espécie de correria por aqui, e acho que você aguenta o suficiente. Chegou a hora de obter um bom equipamento conhecido.

    
por 12.02.2010 / 18:26