O formato da mensagem é RFC 2282 , o formato de mensagem da Internet. O formato arquivo parece estar descrevendo o formato mbox, que é RFC 4155 .
De acordo com a RFC 4155, uma nova mensagem em um banco de dados mbox começa com a palavra-chave From
, um espaço único, o endereço do remetente informado, um único espaço e a data UTC de quando a mensagem foi recebida. p>
Posteriormente, os campos de cabeçalho são separados por caracteres de nova linha e começam com uma letra. Se o primeiro caractere da nova linha é espaço em branco (geralmente uma aba eu acredito), então é uma continuação do valor da linha de cabeçalho anterior. As chaves de cabeçalho são separadas dos valores de cabeçalho por :
(espaço de dois pontos).
O cabeçalho e o corpo são separados por uma linha em branco. Cada mensagem também é separada por um espaço em branco.
Quanto a extrair o assunto com awk
, primeiro extraia os cabeçalhos e passe-o:
awk '/^Subject: .*/ {print substr($0,10)}'
Isto imprime a linha começando na posição 10.