Caso aberto com o fornecedor em relação ao problema.
CPs com ponto de vista baixo são o resultado do esgotamento da memória: (link para o fornecedor)
CP caused by low water mark; the amount of memory available for routine housekeeping tasks is low enough that it is ideal to start a CP to release some more
Para fazer a interface com o fornecedor, executamos um 'perfstat' - uma ferramenta para download da NetApp que permite enviar informações de suporte relacionadas ao perf. Isso nos levou a bug ID 697790 (login de suporte necessário), presente na versão do código em que estávamos, corrigido no ONTAP 8.2.3
Especificamente, um vazamento de memória no caso específico em que a autenticação LDAP estava falhando. Porque todos os 4 hosts estavam usando a mesma conta, e porque em algum momento o bloqueio tinha tropeçado, todos eles estavam falhando absurdamente freqüentemente. (E foram especificamente sistemas de memória muito baixa em primeiro lugar).
Eu olhei para outros sistemas onde este bug esteve presente, e há alguns sinais disso acontecer, mas mesmo em sistemas com mais de 700 dias de atividade, uma quantidade insignificante ocorreu.
Em geral (e com uma ressalva de que os comandos 'diag' são potencialmente perigosos para usar, isso deve ser feito com extrema cautela sem falar com o fornecedor) - poderíamos identificar o problema observando mem_stat
- a segunda coluna é ' bytes 'e procure por' sasl '.
1306719 5268691008 maytag.ko::sasl_client_new+149
Eu não sei em que nível o problema surge - estou esperando que os sistemas colidam novamente para verificar. Mas sugeriria que mais de 5% de utilização de memória você deveria estar pensando em tomar medidas. Uma reinicialização é corrigida, assim como uma atualização de código.
Agora estou capturando cp_types e footprint de memória como parte do meu regime de monitoramento, para que eu possa observá-lo ocorrendo. Também sendo um pouco mais proativo sobre detectar bloqueios de conta LDAP.