CloudWatch não está honrando as configurações de alarme

2

Eu tenho uma configuração de alarme CPUUtilization para minha instância ec2. As configurações para o alarme são:

CPUUtilization >= 95% for 15 consecutive periods of 1 minute (15mins total)

Ainda estamos recebendo e-mails de alerta, embora a instância não pareça entrar no estado de alarme definido.

O alarme de e-mail que minha equipe e eu recebemos explica:

You are receiving this email because your Amazon CloudWatch Alarm ... has entered the ALARM state, because "Threshold Crossed: 3 datapoints were greater than or equal to the threshold (95.0). The most recent datapoints: [99.466, 98.45]...

3 datapoints? Entendo que minha configuração de 15 períodos consecutivos de 1 minuto deve apenas alertar se os pontos de dados 15 forem maiores que 95%.

Estou entendendo mal o texto do e-mail? As minhas configurações de alarme estão em conflito com alguma coisa?

    
por Lix 31.07.2014 / 15:28

2 respostas

3

Sua instância do EC2 deve estar ativada para monitoramento em intervalos de 1 minuto. Se você não tiver ativado o monitoramento detalhado na sua instância do EC2 , você coletaria dados em intervalos de 5 minutos. 3 períodos consecutivos de intervalos de 5 minutos seriam 15 minutos.

Não tenho certeza, mas depois de rever alguns dos meus próprios alarmes do Cloudwatch e jogar com um novo no console ... parece que, nesse caso, o estado do alarme é acionado com base em minutos em vez de períodos - nós apenas definimos minutos em termos de períodos no momento da criação do alarme. Isso parece sensato para mim - caso contrário, seu alarme nunca seria capaz de entrar no estado de alarme se a monitoração detalhada (1 minuto) estivesse desativada.

Em relação ao monitoramento detalhado: eu o ligaria para este caso, se ele estiver desativado. Se você estiver usando o monitoramento básico (5 minutos), os 3 pontos de dados não significam necessariamente que a utilização da CPU tenha sido > = 95% por 15 minutos consecutivos. Significa, em vez disso, que a utilização da CPU foi > = 95% no momento em que os dados foram amostrados, durante 3 amostragens consecutivas.

    
por 02.08.2014 / 07:35
0

A Amazon permite criar alarmes por um período de 1 minuto, mesmo que você não tenha um monitoramento detalhado ativado, mas não há dados para 4 minutos. Se você vir o console do CloudWatch, o alarme deve estar no estado Insufficient por 4 minutos e mudar para OK a cada 5 minutos. Então você ficará bem se mudar de período para 5 minutos ou talvez permitir um monitoramento detalhado.

Períodos do CloudWatch:

Depende do tipo de período selecionado, não do valor.

Se você selecionar minutos, então 1 período consecutivo será 1 minuto e 10 períodos consecutivos serão 10 minutos.

Se você selecionar horas, então 1 período consecutivo é 1 hora e 10 períodos consecutivos são 10 horas.

Se você selecionar dias, então 1 período consecutivo será 1 dia e 10 períodos consecutivos serão 10 dias.

No seu caso, você selecionou período como 15 minutos e depois 15 períodos consecutivos, mas havia dados disponíveis apenas a cada 5 minutos, portanto, ele tem apenas 3 pontos de dados.

    
por 11.08.2014 / 15:08