Eu tenho dois servidores front-end Exchange 2003, ambos são VMs, e ambos estão em diferentes caixas Linux físicas executando o VMware Server em meu dmz.
Alguns dias atrás, todos os meus alertas do Nagios atingiram o tempo limite de um deles e as verificações de ping tiveram uma alta taxa de erros. Nesta troca de front-end vm, eu vi o seguinte que parece indicar tempos limites de disco / problemas durante este tempo na seção do sistema do visualizador de eventos (as outras seções não vão muito longe para trás se torna de avisos de spam, vai ter para corrigir isso):
Event Type: Error
Event Source: vmscsi
Event Category: None
Event ID: 9
Date: 12/12/2009
Time: 9:25:19 AM
User: N/A
Computer: FOO
Description:
The device, \Device\Scsi\vmscsi1, did not respond within the timeout period.
No host Linux, não vejo nada em / var / log / messages ou / var / log / vmware (ou qualquer outra coisa realmente) que me dê alguma dica. No log sar, eu vejo um IOWait ~ 22 maior neste momento, então eu vi em qualquer outro lugar, normalmente, ele só aumenta para cerca de 11 quando os backups são executados, o que eles não eram durante esse tempo. Isso pode acontecer de um disco caindo fora da matriz, alguém sabe como eu verificar isso no Poweredge 2950 (usando dset?).
Na outra VM de front-end, recebi o seguinte (Isso, eu realmente não sei o que isso significa, navegador mestre?):
Event Type: Error
Event Source: MRxSmb
Event Category: None
Event ID: 8003
Date: 12/12/2009
Time: 9:33:16 AM
User: N/A
Computer: FOO
Description:
The master browser has received a server announcement from the computer FOO02 that believes that it is the master browser for the domain on transport NetBT_Tcpip_{..... The master browser is stopping or an election is being forced.
Então, além das questões acima, estou realmente tentando descobrir o que aconteceu, já que tudo parece ter se recuperado por si mesmo, alguma idéia?
Atualização:
Encontrei este utilitário megacli que é novo para mim, mas a partir do dia seguinte a este evento eu vejo muito:
Code: 0x00000071
Class: 0
Locale: 0x02
Event Description: Unexpected sense: PD 03(e1/s3), CDB: 28 00 0a 8c 60 5d 00 00 08 00, Sense: f0 00 03 0a 8c 60 5d 0a 00 00 00 00 11 00 00 00 00 0
Event Data:
===========
Device ID: 3
Enclosure Index: 1
Slot Number: 3
De /opt/MegaRAID/MegaCli/MegaCli -AdpEventLog -GetEvents -f events.log -aALL && cat events.log
. Isso não soa bem, alguém sabe o que isso significa especificamente?