Sou responsável por um farm do Citrix Presentation Server 4.5. Começando na sexta-feira, 30 de novembro, meus servidores começaram a bater aleatoriamente. Até agora nós experimentamos 80 falhas, por isso, obviamente, está se tornando um problema cada vez maior para nós. Eu tenho mais de 12 anos de experiência com TI, então eu sei a diferença entre 0 e 1, mas eu tenho dificuldade em descobrir isso.
Nós revertemos todas as alterações recentes que eu posso imaginar para diferentes grupos de servidores, mas todos os grupos ainda parecem falhar. Eu não tenho as habilidades para interpretar os despejos de memória para encontrar o culpado.
- Alguém encontrou o mesmo ou um problema semelhante? - pode ser um problema genérico do Windows
- Além de executar "analyze -v" no WinDbg, como faço para percorrer os despejos de memória para ver o que realmente acionou o BSOD?
- Alguma sugestão de como chegar ao fim disto?
Qualquer ajuda é muito apreciada. Eu também posso fornecer links para despejos de memória do kernel ou saída do WinDbg, se necessário.
Obrigado!
Descrição do problema
A maioria dos erros de STOP que encontramos são:
-
0x0000008e KERNEL_MODE_EXCEPTION_NOT_HANDLED (50%)
-
0x0000007e SYSTEM_THREAD_EXCEPTION_NOT_HANDLED (26%)
-
0x00000050 PAGE_FAULT_IN_NONPAGED_AREA (21%)
Também vemos alguns 0x0000000a IRQL_NOT_LESS_OR_EQUAL (3%).
Para as verificações de erros 0x0000008e e 0x0000007e, o código de exceção é 0xc0000005 (violação de acesso). Ao abrir arquivos de despejo no WinDbg, a maioria dos detalhes é exatamente a mesma, para todas as verificações de erros 0x0000008e e 0x0000007e, respectivamente:
0x0000008e
- Endereço de exceção: 0x808bc9e3
- Quadro de interceptação: [varia]
- FAILURE_BUCKET_ID: 0x8E_nt! HvpGetCellMapped + 97
- Provavelmente Causado por (IMAGE_NAME): ntkrpamp.exe
0x0000007e
- Endereço de exceção: 0x808369b6
- Endereço de registro de exceção: 0xf70d3be0
- endereço de registro de contexto: 0xf70d38dc
- FAILURE_BUCKET_ID: 0x7E_nt! MmPurgeSection + 14
- Provavelmente causado por: memory_corruption
Cerca de 30% dos acidentes ocorrem entre as 17:00 e as 19:00, o que me leva a acreditar que isso costuma acontecer com mais frequência durante os logoffs. Mas, novamente, apenas ~ 15% ocorre entre as 15:00 e as 17:00.
Resumo da fazenda
- Citrix Presentation Server 4.5 R06 no Windows Server 2003 R2 SP2
- Todos os patches de alta prioridade, pelo menos a partir de outubro, instalados
- Virtualizado usando VMWare ESX / vSphere 4.1 em servidores blade HP Proliant BL460c G6
- Cerca de 53 servidores de apresentação em produção, divididos em três silos - apenas um deles, o maior, é afetado
- 2 vCPUs (5 GHz reservados), 8 GB de RAM (todos reservados) para cada Presentation Server
- Bastante espaço livre em disco
- Poucos drivers de impressora - exclusão automática de drivers não aprovados todas as noites
- ~ 1.000 usuários simultâneos de pico, o que é alcançado por volta das 10:30 (durante a semana)
- O número de sessões diminui constantemente entre 15:00 e 19:00 até ~ 230