Encontre frases duplicadas - qualquer ferramenta ou regex

0

Eu tenho um longo documento e suspeito que algumas frases (uma ou várias frases) são idênticas ou pelo menos semelhantes. Existe alguma maneira de encontrar essas frases repetitivas? Alguma ferramenta ou regex?

    
por Franz Kafka 03.04.2014 / 12:11

1 resposta

0

Encontrar frases idênticas pode ser facilmente feito no Notepad ++:

  1. Use um regexp para ter cada frase em uma nova linha. Isso pode ser feito (por exemplo) procurando por todos os . e substituindo-os por .\n
  2. Remova todos os espaços brancos no início da linha.
  3. Agora, vá em frente e classifique as linhas (TextFX - > TextFX Tools)
  4. Converta o caractere EOL para UNIX porque ot torna as coisas mais simples (conversão Edit - > EOL)
  5. Agora, pesquise por linhas duplicadas pesquisando por ^([^\n]+)\n

Para encontrar frases semelhantes, você precisaria de algo como um programa de palavra ou algum tipo de busca fuzzy.

    
por 03.04.2014 / 14:09