Falhas de DNS intermitentes no Google Container Engine

Question

Falhas de DNS intermitentes no Google Container Engine

#1 resposta do (0 votos)

4

[Pergunta reescrita com detalhes das descobertas.]

Estou executando um cluster do Google Container Engine com cerca de 100 contêineres que realizam cerca de 100.000 chamadas de API por dia. Alguns dos pods começaram a receber 50% de falha na resolução do DNS. Eu investiguei isso e isso só acontece para pods em nós que estão executando kube-dns . Eu também notei que isso acontece apenas antes de um nó no sistema ser desligado por falta de memória.

Os trabalhos de segundo plano são anexados às APIs do Google e, em seguida, enviados para o S3. Quando vejo trabalhos com falha, eles falham com "Falha temporária na resolução de nomes". Isso acontece para "accounts.google.com" e "s3.amazonaws.com".

Quando eu faço login no servidor e tento me conectar a esses (ou outros hosts) com host , nslookup ou dig , parece funcionar muito bem. Quando me conecto ao console rails e executo o mesmo código que está falhando nas filas, não consigo fazer com que uma falha aconteça. Howerver, como eu disse, essas falhas de fundo parecem ser intermitentes (cerca de 50% do tempo para os trabalhadores rodando em nós rodando kube-dns ).

Até agora, minha correção provisória era excluir os pods que estavam falhando e deixar o Kubernetes reagendá-los e continuar fazendo isso até que o Kubernetes os agendasse para um nó que não estivesse executando kube-dns .

Por acaso, a remoção do nó com falha não resolveu isso. Isso apenas fez com que o kubernetes movesse tudo para outros nós e movesse o problema.

kubernetes google-compute-engine google-kubernetes-engine

por jwadsack 08.09.2016 / 18:00

1 resposta

Tags kubernetes google-compute-engine google-kubernetes-engine

Dante incapaz de vincular ao endereço IP público Como posso evitar que o mDNSResponder armazene em cache um resultado NEGATIVO?

score 0 · Accepted Answer

Eu resolvi isso atualizando para o Kubernetes 1.4.

A versão 1.4 incluiu várias correções para impedir que os kubernetes travassem sob condições de falta de memória. Acho que isso ajudou a reduzir a probabilidade de acertar esse problema, embora não esteja convencido de que o problema principal tenha sido corrigido (a menos que o problema seja que uma das kube-dns instâncias foi paralisada ou não respondeu, pois o sistema do kubernetes fica instável quando um nó atingiu OOM).