Eu não tenho reputação suficiente aqui para responder a resposta do qqx, então vou ter que apresentar uma resposta separada:
Não é um erro; O que acontece é o seguinte: Quando você apertar ESC pela primeira vez, você passa do modo de inserção vi para o modo de comando vi (obviamente). Então você apertar ESC novamente no modo de comando vi. O problema é que, por padrão, ESC não está vinculado a nada no modo de comando, no entanto, existem widgets multi-chave começando com ESC que são ligados - notavelmente, o seqüências de controle enviadas pelas teclas de seta.
Portanto, se você pressionar ESC no modo de comando do VI, o ZLE permanecerá aguardando o segundo pressionamento de tecla do widget. É por isso que, se você acertar 'i' (ou qualquer personagem), ele será silenciosamente consumido pelo ZLE.
A resposta é ligar o ESC a algo - qualquer coisa - no modo de comando do VI, exatamente como o qqx afirmou em sua resposta.