Se esse for o único problema, eu concordo com o @Kevin; se o feed inteiro não for UTF-8, talvez eu veja tr -cd SET
para excluir todos os caracteres que não estão em SET ou iconv -f (encoding) -t utf-8
se você souber a codificação do feed.
Estou tentando analisar um feed RSS na linha de comando. O código funciona até agora, mas o feed contém um símbolo de direitos autorais que eu tento remover (é latin1 codificado). Como faço para remover o símbolo de direitos autorais ( \xA9
) usando talvez sed
?
Se esse for o único problema, eu concordo com o @Kevin; se o feed inteiro não for UTF-8, talvez eu veja tr -cd SET
para excluir todos os caracteres que não estão em SET ou iconv -f (encoding) -t utf-8
se você souber a codificação do feed.
tr -d '©'
funciona simplesmente para removê-lo.
Se você quiser substituí-lo por uma string, use
sed 's/©/(c)/g'