Como converter em massa conteúdo html de arquivos eml para arquivos doc (Word)

0

Eu obtive mais de 5000 arquivos eml com conteúdo html (declarado como text / html utf-8 em cabeçalhos, mas ...) e preciso convertê-los para o único formato suportado pelo nosso tradutor terceirizado - Microsoft Word .doc

Eu posso fazê-lo manualmente abrindo-o no Thunderbird e copiando e colando-o no openoffice, mas isso exige muito trabalho manual.

Minha última tentativa foi extrair conteúdo html usando o comando "munpack -t", mas de alguma forma quebrou a codificação. Mesmo se eu adicionei o cabeçalho meta ao arquivo html definindo o charset utf-8, ele foi quebrado. Depois de olhar mais de perto esses arquivos eml, tenho certeza que eles não são utf-8, althroug definidos e o thunderbird pode lê-los bem.

Infelizmente, não posso fornecer esses arquivos porque eles contêm "dados confidenciais da empresa". Espero que alguém seja capaz de reconhecer o problema ou recomendar uma nova ferramenta.

edit: Exemplo de arquivo (com dados confidenciais apagados) link

    
por David162795 28.06.2017 / 09:29

1 resposta

0

nunca fiz isso, então não faço ideia. uma pesquisa rápida com um mecanismo de pesquisa encontrado

link

que contém

- iniciar cotação

"Uma opção é o libreoffice / openoffice no modo headless (certifique-se de que todas as outras instâncias do libreoffice sejam fechadas primeiro):

libreoffice --headless --convert-to txt: texto mydocument.doc

Para mais detalhes, veja por exemplo este link: link

Para obter uma lista de filtros do libreoffice, consulte link

Como a sintaxe da linha de comando do openoffice é um pouco complicada, há um wrapper que pode facilitar o processo: unoconv. "

- end quote

Eu experimentei isso para um único arquivo, depois coloquei um loop for para fazer todos eles. isso é uma ideia, esperando que isso o leve aonde eu acho que pode funcionar (ou pelo menos levar a uma correção)

    
por guiverc 28.06.2017 / 09:51