Depois de investigar um pouco mais, descobri que no nó primário havia o processo kvm zombie:
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
17520 root 20 0 0 0 0 Z 613 0.0 13922:24 kvm <defunct>
Eu não sabia como me livrar dele adequadamente.
Eu tentei migrar todas as instâncias primárias (eu tinha apenas 2) desse nó, mas isso falhou (erro relacionado ao bdrm). Eu reiniciei o nó. Ao desligar a máquina, ela estava presa por causa do drbd. A mensagem foi algo como:
No response from the DRBD driver! Is the module loaded?
Então eu apertei o botão para desligar a máquina. Máquina reinicializada (sem qualquer erro) e após alguns minutos as instâncias Ganeti iniciaram automaticamente.
No nó principal, eu corri:
$ gnt-instance info myinstance
...
on primary: /dev/drbd4 (147:4) *RECOVERING* 12.80%, ETA 288s, status *DEGRADED*
on secondary: /dev/drbd4 (147:4) *RECOVERING* 12.80%, ETA 275s, status *DEGRADED* *UNCERTAIN STATE*
....
Depois de esperar alguns minutos, a recuperação foi concluída e agora está em sincronia.
Conclusão: está tudo bem agora, mas gostaria de não ter que reiniciar o nó.
Obrigado gf_ pela sua ajuda.