Nossa Instância do EC2 (Windows Server 2008) caiu várias vezes nos últimos três meses (a última vez foi hoje às 1:05 EST). Após a revisão do arquivo MEMORY.DMP, notamos que a possível causa das falhas é o rhelnet.sys (RedHat PV NIC Driver).
O Visualizador de Eventos do Servidor possui os seguintes registros logo após o travamento:
Critical - Kernel Power:
The system has rebooted without cleanly shutting down first.
This error could be caused if the system stopped responding, crashed, or lost power unexpectedly.
BugCheck:
The computer has rebooted from a bugcheck. The bugcheck was:
0x000000d1 (0x000000000000002d, 0x0000000000000002, 0x0000000000000000, 0xfffff88001402d14).
A dump was saved in: C:\Windows\MEMORY.DMP. Report Id: 100113-35849-01.
Este poderia ser um problema de hardware? Ajudaria se parássemos e começássemos a instância? Ou é mais provável que isso seja causado pelo software em execução no sistema?
[Atualização 10/01/2013]
O Amazon Rep sugeriu atualizar os drivers RH para os drivers Citrix PV em nossa instância:
Atualizando os drivers PV
[Atualização 10.08.2013]
Realizamos um upgrade de drivers na instância clonada. Logo após a atualização, notamos os seguintes erros em nosso visualizador de eventos:
Xennet6 errors in Event Viewer (Event ID# 5001)
Depois de cavar um pouco mais, encontrei este artigo sugerindo instalar os drivers mais recentes do Citrix. Infelizmente, isso não nos ajudou em nada e nossa instância clonada ficou sem resposta.
[Atualização 10.08.2013 2]
Eu recriou uma instância e atualizei os drivers PV novamente.
Depois de pesquisar na Internet, encontrei o artigo onde a Amazon Rep explica:
"Event ID 5001 from source Xennet6 cannot be found" message does not
indicate anything wrong, just that the PV driver is looking for a feature
that we have not implemented in our version of Xen.
Vou manter meu sistema de teste em funcionamento por um tempo para ver se há algum problema com ele.