Solaris 11 caiu aleatoriamente

3

Eu tenho uma máquina Solaris 11 que caiu aleatoriamente esta manhã. Depois de reiniciar fisicamente a máquina, notei que todas as unidades foram marcadas com Sense Key: Soft_Error no dmesg e em /var/adm/messages .

Como todas as unidades da máquina foram marcadas com o mesmo erro de software, isso significa que o HBA está com defeito? Alguém tem alguma idéia / sugestão?

root@solaris-machine:/var/log# iostat -E
sd0       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0
Vendor: ATA      Product:       Revision: SN02 Serial No: 
Size: 500.11GB <500107862016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1
Illegal Request: 12 Predictive Failure Analysis: 0
sd2       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0 
Vendor: ATA      Product:      Revision: 0004 Serial No:  
Size: 3000.59GB <3000592982016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1
Illegal Request: 0 Predictive Failure Analysis: 0 
sd4       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0
Vendor: ATA      Product:      Revision: 0004 Serial No: 
Size: 3000.59GB <3000592982016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1 
Illegal Request: 0 Predictive Failure Analysis: 0 
sd5       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0 
Vendor: ATA      Product:      Revision: 0004 Serial No: 
Size: 3000.59GB <3000592982016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1 
Illegal Request: 0 Predictive Failure Analysis: 0




Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g5000c5004dfae642 (sd4):
Jan 23 10:45:02 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:        
Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g5000c5004dfc8db2 (sd2):
Jan 23 10:45:04 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:        
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        ASC: 0x0 (<vendor unique code 0x0>), ASCQ: 0x1d, FRU: 0x0
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g5000c5004dfd4ce3 (sd5):
Jan 23 10:45:04 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        ASC: 0x0 (<vendor unique code 0x0>), ASCQ: 0x1d, FRU: 0x0
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci15d9,664@1f,2/disk@0,0 (sd0):
Jan 23 10:45:07 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        ASC: 0x0 (no additional sense info), ASCQ: 0x0, FRU: 0x0
    
por Alpha01 23.01.2013 / 23:23

3 respostas

2

Onde eu olho quando um servidor Solaris 11 trava:

  • %código%
    • tenha uma leitura cuidadosa disso, há dicas aqui ou, se o buffer do dmesg tiver passado por um ciclo, observe o dmesg | less log em reprodução no momento da falha.
  • %código%
    • isso mostrará todos os dispositivos que o gerenciador de falhas considerou defeituosos, incluindo discos e hbas, e NIC, etc.
  • %código%
    • isso mostrará todos os erros do sistema, reconhecidos pelo sistema de gerenciamento de falhas, independentemente de terem resultado na falha de uma peça de hardware.
  • se os discos em questão fizerem parte de um zpool, execute /var/adm/messages nesse pool e, em seguida, consulte fmadm faulty e veja se você está recebendo erros de soma de verificação que podem indicar um problema com o HBA ou com os discos.
  • verifique se a configuração de despejo está definida para capturar os despejos de memória executando fmdump -eV . a saída disso deve mostrar que savecore está habilitado e que os travamentos serão deixados em zpool scrub . Se o seu sistema deixou um crashdump em zpool status do crash desta manhã, então você pode olhar para o pstack da falha e, possivelmente, obter alguns indicadores quanto à causa raiz.

Essas etapas devem aproximá-lo para descobrir por que seu sistema falhou.

    
por 17.05.2013 / 21:51
0

[Mais nenhum especialista em Solaris, mas conheça meu caminho em torno do hardware com o Linux] Se fosse uma unidade, eu suspeitaria que uma está falhando. Mas todos eles são extra suspeitosos. Problemas com o controlador, talvez?

A maioria das falhas que vi recentemente ocorreram devido ao superaquecimento da CPU (falta de ventoinha, sujeira, circulação de ar entupida), segundo travamento devido a drivers de gráficos (especialmente nVidia). Alguns pontos problemáticos no passado eram quedas de energia ou até mesmo apagões.

    
por 24.01.2013 / 14:56
0

Um pequeno número de erros de software pode ser ignorado com segurança. O Solaris é apenas pedante para gravar e relatar tudo o que outros SOs nem percebem.

Monitore a contagem de erros (ela é redefinida na reinicialização) e verifique os padrões.

Também esteja ciente de que os erros de software em um dispositivo tendem a fazer com que a contagem em outros drives no mesmo barramento também seja incrementada. Você também terá um vencedor claro, uma unidade com muitos erros a mais que os outros.

Eu nunca achei as contagens de erros de unidade (erros suaves ou difíceis) indicativas de falhas de HBA, mas isso pode ser apenas eu. As falhas de HBA geralmente aparecem como outras mensagens, por exemplo, erros de mpt.

    
por 16.02.2013 / 11:01

Tags