Servidores aleatórios no farm do Citrix subitamente bluescreens (principalmente 0x0000008e e 0x0000007e)

3

Sou responsável por um farm do Citrix Presentation Server 4.5. Começando na sexta-feira, 30 de novembro, meus servidores começaram a bater aleatoriamente. Até agora nós experimentamos 80 falhas, por isso, obviamente, está se tornando um problema cada vez maior para nós. Eu tenho mais de 12 anos de experiência com TI, então eu sei a diferença entre 0 e 1, mas eu tenho dificuldade em descobrir isso.

Nós revertemos todas as alterações recentes que eu posso imaginar para diferentes grupos de servidores, mas todos os grupos ainda parecem falhar. Eu não tenho as habilidades para interpretar os despejos de memória para encontrar o culpado.

  • Alguém encontrou o mesmo ou um problema semelhante? - pode ser um problema genérico do Windows
  • Além de executar "analyze -v" no WinDbg, como faço para percorrer os despejos de memória para ver o que realmente acionou o BSOD?
  • Alguma sugestão de como chegar ao fim disto?

Qualquer ajuda é muito apreciada. Eu também posso fornecer links para despejos de memória do kernel ou saída do WinDbg, se necessário.

Obrigado!

Descrição do problema

A maioria dos erros de STOP que encontramos são:

  • 0x0000008e KERNEL_MODE_EXCEPTION_NOT_HANDLED (50%)
  • 0x0000007e SYSTEM_THREAD_EXCEPTION_NOT_HANDLED (26%)
  • 0x00000050 PAGE_FAULT_IN_NONPAGED_AREA (21%)

Também vemos alguns 0x0000000a IRQL_NOT_LESS_OR_EQUAL (3%).

Para as verificações de erros 0x0000008e e 0x0000007e, o código de exceção é 0xc0000005 (violação de acesso). Ao abrir arquivos de despejo no WinDbg, a maioria dos detalhes é exatamente a mesma, para todas as verificações de erros 0x0000008e e 0x0000007e, respectivamente:

0x0000008e

  • Endereço de exceção: 0x808bc9e3
  • Quadro de interceptação: [varia]
  • FAILURE_BUCKET_ID: 0x8E_nt! HvpGetCellMapped + 97
  • Provavelmente Causado por (IMAGE_NAME): ntkrpamp.exe

0x0000007e

  • Endereço de exceção: 0x808369b6
  • Endereço de registro de exceção: 0xf70d3be0
  • endereço de registro de contexto: 0xf70d38dc
  • FAILURE_BUCKET_ID: 0x7E_nt! MmPurgeSection + 14
  • Provavelmente causado por: memory_corruption

Cerca de 30% dos acidentes ocorrem entre as 17:00 e as 19:00, o que me leva a acreditar que isso costuma acontecer com mais frequência durante os logoffs. Mas, novamente, apenas ~ 15% ocorre entre as 15:00 e as 17:00.

Resumo da fazenda

  • Citrix Presentation Server 4.5 R06 no Windows Server 2003 R2 SP2
  • Todos os patches de alta prioridade, pelo menos a partir de outubro, instalados
  • Virtualizado usando VMWare ESX / vSphere 4.1 em servidores blade HP Proliant BL460c G6
  • Cerca de 53 servidores de apresentação em produção, divididos em três silos - apenas um deles, o maior, é afetado
  • 2 vCPUs (5 GHz reservados), 8 GB de RAM (todos reservados) para cada Presentation Server
  • Bastante espaço livre em disco
  • Poucos drivers de impressora - exclusão automática de drivers não aprovados todas as noites
  • ~ 1.000 usuários simultâneos de pico, o que é alcançado por volta das 10:30 (durante a semana)
  • O número de sessões diminui constantemente entre 15:00 e 19:00 até ~ 230
por abstrask 11.12.2012 / 03:31

2 respostas

0

Acabamos aplicando o pacote cumulativo de atualizações do PS 4.5 7 (que não foi instalado porque ele anteriormente quebrou a confiabilidade da sessão para nós) e um número de hotfixes posteriores ao R07.

Além disso, substituímos a nova versão beta do UPHClean 2.0, que a Microsoft abandonou desde então como um componente separado (ainda incorporado a versões posteriores do Windows), com o mais novo UPHClean 1.6g.

A fazenda tem sido estável desde então, mas ainda é um mistério por que todo o inferno de repente quebrou perder, sem fazer grandes mudanças.

    
por 13.03.2013 / 08:43
2

Tivemos um problema semelhante em uma versão mais antiga do Citrix (PS4) que se resumia aos drivers da HP Print. Eu tive que limpar todo o lote antes de reinstalar os apropriados e parecia limpar o problema azul. Também Curioso sobre "exclusão automática de drivers não aprovados todas as noites". Se você desmarcar os não-aprovados a cada noite, por que permitir que eles sejam instalados em primeiro lugar? Você pode impedi-los de serem instalados nas políticas do Citrix. Acho que está em impressão - > Drivers - > Auto-instalação do driver de impressora nativa (definida para não ser instalada automaticamente)

    
por 11.12.2012 / 10:01