PROBLEMA: dados Unicode corrompidos do programa ascii

1

Eu estava usando o programa html2text para extrair o devanagari unicode do arquivo html. Mas está dando saída como,

"शà¥à¤°à¤¦à¥à¤§à¤§à¤¾à¤¨à¤¾à¤¨à¤¾à¤".

No Windows, eu retificaria isso usando o recurso converter para unicode no Notepad ++.

O que fazer para o Ubuntu?

Atualização: para fins de teste, estou adicionando isso:

echo आचार्यपूज्यपादानामिष्टं | html2text

renderiza à¤à¤à¤¾à¤ ° à ¥ यà¤àà ¥ à¤à ¥ यपादानामà¤àà ¤ · à ¥ à¤à¤

    
por Ramaprakasha 18.06.2014 / 08:48

1 resposta

0

Você pode tentar usar iconv para converter a entrada para a codificação correta. Infelizmente eu não posso te dar uma ajuda mais precisa, apenas um exemplo de uso eventual:

html2text myfile.html  |  iconv -f iso-8859-1 -t utf-8 -c > good_output.txt

É claro que você tem que substituir seus próprios charsets.

Atualização:

No seu caso, a solução de trabalho é adicionar o parâmetro -utf8 a html2text :

 echo आचार्यपूज्यपादानामिष्टं | html2text -utf8
    
por Frantique 18.06.2014 / 09:01