Há um número enorme de maneiras que um sistema pode falhar, então você provavelmente não pode testar todos eles e tentar contorná-los.
Talvez você deva olhar para isso de outra perspectiva: procure os serviços que são essenciais e encontre uma forma de explicitamente matá-los aleatoriamente. Isso simula uma falha com a qual você se importa, independentemente da causa.
Por exemplo, se sua instância executar um servidor httpd e um servidor FTP, você poderá eliminar esses daemons ocasionalmente e certificar-se de que possa recuperá-los. Você pode até terminar programaticamente todo o servidor com a API da AWS, se quiser.
Isso também irá exercitar sua infraestrutura de monitoramento se a recuperação não funcionar :-)