Onde eu olho quando um servidor Solaris 11 trava:
-
%código%
- tenha uma leitura cuidadosa disso, há dicas aqui ou, se o buffer do dmesg tiver passado por um ciclo, observe o
dmesg | less
log em reprodução no momento da falha.
- tenha uma leitura cuidadosa disso, há dicas aqui ou, se o buffer do dmesg tiver passado por um ciclo, observe o
-
%código%
- isso mostrará todos os dispositivos que o gerenciador de falhas considerou defeituosos, incluindo discos e hbas, e NIC, etc.
-
%código%
- isso mostrará todos os erros do sistema, reconhecidos pelo sistema de gerenciamento de falhas, independentemente de terem resultado na falha de uma peça de hardware.
- se os discos em questão fizerem parte de um zpool, execute
/var/adm/messages
nesse pool e, em seguida, consultefmadm faulty
e veja se você está recebendo erros de soma de verificação que podem indicar um problema com o HBA ou com os discos. - verifique se a configuração de despejo está definida para capturar os despejos de memória executando
fmdump -eV
. a saída disso deve mostrar que savecore está habilitado e que os travamentos serão deixados emzpool scrub
. Se o seu sistema deixou um crashdump emzpool status
do crash desta manhã, então você pode olhar para o pstack da falha e, possivelmente, obter alguns indicadores quanto à causa raiz.
Essas etapas devem aproximá-lo para descobrir por que seu sistema falhou.