PROBLEMA: dados Unicode corrompidos do programa ascii

Question

PROBLEMA: dados Unicode corrompidos do programa ascii

Navegue suas respostas

#1 resposta do Frantique (0 votos)

1

Eu estava usando o programa html2text para extrair o devanagari unicode do arquivo html. Mas está dando saída como,

"à¤¶à¥à¤°à¤¦à¥à¤§à¤§à¤¾à¤¨à¤¾à¤¨à¤¾à¤".

No Windows, eu retificaria isso usando o recurso converter para unicode no Notepad ++.

O que fazer para o Ubuntu?

Atualização: para fins de teste, estou adicionando isso:

echo आचार्यपूज्यपादानामिष्टं | html2text

renderiza à¤à¤à¤¾à¤ ° à ¥ à¤¯à¤àà ¥ à¤à ¥ à¤¯à¤ªà¤¾à¤¦à¤¾à¤¨à¤¾à¤®à¤àà ¤ · à ¥ à¤à¤

por Ramaprakasha 18.06.2014 / 06:48

1 resposta

Ocorreu um erro ao atualizar o sistema Quais são todos os parâmetros para iso-scan?

score 0 · Accepted Answer

Você pode tentar usar iconv para converter a entrada para a codificação correta. Infelizmente eu não posso te dar uma ajuda mais precisa, apenas um exemplo de uso eventual:

html2text myfile.html  |  iconv -f iso-8859-1 -t utf-8 -c > good_output.txt

É claro que você tem que substituir seus próprios charsets.

Atualização:

No seu caso, a solução de trabalho é adicionar o parâmetro -utf8 a html2text :

 echo आचार्यपूज्यपादानामिष्टं | html2text -utf8