Localizando, excluindo hífens flexíveis de um trecho de texto

1

Estou tentando limpar um texto que copiei de um PDF com OCR. Atualmente, o texto contém muitos (o que eu assumo são) hífens suaves. Isso torna difícil "localizá-los" no Bloco de Notas ou no Microsoft Word, o que significa que é difícil excluí-los do texto.

    
por 76987 30.10.2011 / 08:55

1 resposta

1

Você tem um exemplo de onde isso não seria possível?

Se eles estiverem apenas em texto simples, você pode simplesmente procurá-los e, se eles existirem, você poderá substituí-los por nada. Observe que uma codificação diferente pode fornecer resultados diferentes, portanto, tente emacs ou Notepad++ ...

    
por 30.10.2011 / 09:31

Tags