Tempos limite de disco em um front-end do Exchange Server 2003 em DMZ

1

Eu tenho dois servidores front-end Exchange 2003, ambos são VMs, e ambos estão em diferentes caixas Linux físicas executando o VMware Server em meu dmz.

Alguns dias atrás, todos os meus alertas do Nagios atingiram o tempo limite de um deles e as verificações de ping tiveram uma alta taxa de erros. Nesta troca de front-end vm, eu vi o seguinte que parece indicar tempos limites de disco / problemas durante este tempo na seção do sistema do visualizador de eventos (as outras seções não vão muito longe para trás se torna de avisos de spam, vai ter para corrigir isso):

Event Type: Error
Event Source:   vmscsi
Event Category: None
Event ID:   9
Date:       12/12/2009
Time:       9:25:19 AM
User:       N/A
Computer:   FOO
Description:
The device, \Device\Scsi\vmscsi1, did not respond within the timeout period.

No host Linux, não vejo nada em / var / log / messages ou / var / log / vmware (ou qualquer outra coisa realmente) que me dê alguma dica. No log sar, eu vejo um IOWait ~ 22 maior neste momento, então eu vi em qualquer outro lugar, normalmente, ele só aumenta para cerca de 11 quando os backups são executados, o que eles não eram durante esse tempo. Isso pode acontecer de um disco caindo fora da matriz, alguém sabe como eu verificar isso no Poweredge 2950 (usando dset?).

Na outra VM de front-end, recebi o seguinte (Isso, eu realmente não sei o que isso significa, navegador mestre?):

Event Type: Error
Event Source:   MRxSmb
Event Category: None
Event ID:   8003
Date:       12/12/2009
Time:       9:33:16 AM
User:       N/A
Computer:   FOO
Description:
The master browser has received a server announcement from the computer FOO02 that believes that it is the master browser for the domain on transport NetBT_Tcpip_{..... The master browser is stopping or an election is being forced.

Então, além das questões acima, estou realmente tentando descobrir o que aconteceu, já que tudo parece ter se recuperado por si mesmo, alguma idéia?

Atualização:
Encontrei este utilitário megacli que é novo para mim, mas a partir do dia seguinte a este evento eu vejo muito:

Code: 0x00000071
Class: 0
Locale: 0x02
Event Description: Unexpected sense: PD 03(e1/s3), CDB: 28 00 0a 8c 60 5d 00 00 08 00, Sense: f0 00 03 0a 8c 60 5d 0a 00 00 00 00 11 00 00 00 00 0
Event Data:
===========
Device ID: 3
Enclosure Index: 1
Slot Number: 3

De /opt/MegaRAID/MegaCli/MegaCli -AdpEventLog -GetEvents -f events.log -aALL && cat events.log . Isso não soa bem, alguém sabe o que isso significa especificamente?

    
por Kyle Brandt 16.12.2009 / 15:13

1 resposta

2

O evento do localizador mestre é normal e não está relacionado, pode ser ignorado.

O log do RAID é enigmático, mas como ele lista o slot3, presumo que não esteja gostando de algo com o drive no slot 3. Deve haver documentação para esse evento em algum lugar no site da Dell ou da LSI.

Você pode testar a matriz executando uma verificação da matriz. Eu não tenho certeza se você pode fazê-lo a partir desse utilitário no sistema operacional, ele pode ser executado a partir do utilitário de configuração RAID que é acessado na inicialização.

Se você tiver um slot de reserva & unidade disponível, em seguida, você pode colocar em uma nova unidade, torná-lo um hot spare global, puxe a unidade no slot3 e deixe tudo falhar para o sobressalente. Você pode então testar / substituir a unidade slot3 sem pressão de tempo.

    
por 16.12.2009 / 16:39