Mensagem Dell Open Manage no log de eventos do Windows, devo me preocupar?

1

Eu tenho um servidor Dell T110 com um controlador SAS 6i / R e dois discos rígidos no RAID 1. Ocasionalmente, um aviso é exibido no log de eventos do Windows com a seguinte mensagem:

SAS port report: SAS wide port 2 lost link on PHY 2.: Controller 0 (SAS 6/iR Adapter)

E cerca de 20 segundos depois, a seguinte mensagem informativa é exibida:

SAS port report: SAS wide port 2 restored link on PHY 2.: Controller 0 (SAS 6/iR Adapter)

Até agora, não notei nenhuma interrupção nos programas em execução neste servidor. Isso é um sinal de problemas futuros com o controlador ou os discos? Algum de vocês já viu algo assim?

Atualizar

Ontem, três dias depois de postar esta pergunta, a configuração do RAID 1 perdeu redundância. Após uma sequência das mensagens mencionadas acima, as seguintes mensagens foram registradas:

(10-07-2012 21:42:42) - An invalid SAS configuration has been detected. Details: SAS topology error: Unaddressable device.: Controller 0 (SAS 6/iR Adapter)

(10-07-2012 21:42:45) - Reset to device, \Device\RaidPort0, was issued.

(10-07-2012 21:43:02) - Device failed: Physical Disk 0:2 Controller 0, Connector 0

(10-07-2012 21:52:59) - The driver detected a controller error on \Device\RaidPort0.

(10-07-2012 21:53:02) - Redundancy lost: Virtual Disk 1 (Virtual Disk 1) Controller 0 (SAS 6/iR Adapter)

(10-07-2012 21:53:02) - Virtual disk degraded: Virtual Disk 1 (Virtual Disk 1) Controller 0 (SAS 6/iR Adapter)

(10-07-2012 21:53:02) - The rebuild failed due to errors on the target physical disk.: Physical Disk 0:2 Controller 0, Connector 0

A partir dessas mensagens, pode-se supor que o problema esteja em um dos discos da matriz. Estou usando agora a ferramenta Dell Online Diagnostics para testar os discos. Enquanto um dos discos terminou os testes, o outro está preso em 20%. Então acho que encontrei o culpado.

    
por Norba 04.10.2012 / 14:57

1 resposta

3

Como Mitch sugeriu, eu primeiro asseguraria que todos os componentes em seu servidor tivessem o firmware mais recente e os drivers mais recentes instalados. Nós tivemos discos rígidos inteiros falhando porque eles não tinham o firmware mais recente (3 em linha, na verdade, até que a Dell descobriu que o firmware nas unidades atuais estava desatualizado). Isso não tem nada a ver com o seu caso, mas estou tentando ilustrar que manter seus dispositivos no firmware mais recente é mais do que apenas "boa prática".

Basta navegar aqui e inserir sua tag de serviço: link .

Temos monitorado os eventos DELL há muitos anos e os eventos registrados pelo OpenManage não devem ser ignorados. O aviso que você está obtendo provavelmente sugeriu um problema que precisa ser resolvido.

A razão pela qual você provavelmente não está percebendo nenhum problema é porque você está executando um RAID 1. Como tal, mesmo desconectar uma das unidades completamente não causará nenhum problema perceptível, embora possa resultar em uma reconstrução de ataque (o que seria ser logado também).

Se você continuar vendo esses eventos depois de atualizar todos os drivers e firmware, eu desligaria o servidor (se possível), desconectaria e reconectaria os cabos do disco rígido.

Se o problema persistir, eu ligaria para a DELL, pois é mais provável que seja um problema de hardware, como cabo de defeito, backplane, etc.

    
por 05.10.2012 / 15:10