EC2 - falha de hardware

3

Eu uso o armazenamento do EBS em uma instância do Debian. Eu configurei a instância para não terminar no encerramento.

Eu estou querendo saber o que acontece em caso de falha de hardware (RAM, CPU, HD, etc).

  1. qual tipo de alarme devo configurar para ser notificado? Posso confiar em "StatusCheckFailed"?

  2. Devo esperar uma reinicialização / reinicialização em um hardware diferente feito automaticamente pela equipe da AWS? Se não, quais são as etapas que devo seguir para reiniciar minha instância em um hardware diferente? Quanto tempo demora?

  3. Posso assumir com segurança que NÃO irei perder meus dados (/ var / www etc)? Atualmente, se eu parar e começar tudo está OK, mas não tenho certeza se posso confiar nele

  4. Em caso de falha no disco rígido, é transparente porque a AWS usa RAID ou o que for? ou eu também tenho que ser notificado e talvez reiniciar manualmente a partir de um instantâneo anterior?

Estando na "nuvem", especialmente na AWS, esperava que ela incluísse o gerenciamento de failover, com produtos como o VMware, apenas reiniciando a VM em outro HW, automaticamente. Então, eu entendo que tenho que esperar failover, mas estou procurando soluções para executar automaticamente a instância em outra área / região quando uma falha de HW é detectada, ou, se não for possível, pelo menos manualmente, passando por um par de passos?

Obrigado Rod

    
por Rod 20.02.2016 / 14:25

2 respostas

2

É improvável que a AWS reinicie sua instância. Eles dão a você todas as ferramentas para monitorar e reiniciar instâncias, de modo que elas deixem para você. Eles podem enviar um e-mail se você precisar fazer algo.

Você não deve perder dados do disco do EBS se o hardware do EC2 falhar, mas o EBS não é tão robusto quanto o S3. Há uma chance de você perder seu disco EBS, então você precisa de backups ou snapshots (eu faço ambos, backups usando Attic e Dropbox). Você deve estar fazendo instantâneos regulares, que são armazenados no S3 e são muito mais duráveis. O primeiro instantâneo é grande, os subsequentes são diferenciais, portanto use relativamente pouco espaço.

Você pode criar um alarme no CloudWatch que reinicialize sua instância se o StatusCheckFailed for gerado. A documentação com instruções passo a passo é aqui .

    
por 20.02.2016 / 19:51
4

Em alguns casos, a Amazon notará que seu hardware está em um estado degradado e pedirá que você saia dela (pare e inicie sua instância) até uma determinada data ou ela será interrompida automaticamente.

Em alguns casos, não haverá aviso e ele será interrompido. Ou não entrar no estado STOP e simplesmente tornar-se inacessível. Pode ou não reiniciar depois de cuidar disso. Às vezes, haverá um pedido de desculpas após o fato.

Eu ainda não tive um volume de EBS com falha em mim (tive muitas instâncias estranhas, mas não volumes), mas ainda planejo isso. Eu não sei o que isso parece.

Definir um alarme para a falha na verificação do status de Acessibilidade é sua melhor aposta.

    
por 20.02.2016 / 15:11