Você pode usar uma expressão regular para remover palavras duplicadas consecutivas em uma linha, mas não é possível remover palavras duplicadas que não sejam consecutivas (por exemplo, dangerous, hazardous, dangerous
).
Use esta regex na janela de substituição do Notepad ++ e não se esqueça de selecionar "Regular expression" como a opção Search Mode abaixo:
Este regex removerá todas as palavras duplicadas consecutivas - seja 2 palavras duplicadas ou 10 palavras duplicadas consecutivamente: \b(\w+)(?:,\s+\b)+
.
A mesma expressão sem vírgulas seria: \b(\w+)(?:\s+\b)+
(pode ser útil para outros usuários).
Se você quer um regex especificamente para apenas duas palavras duplicadas (duplas), use este regex: (\b\w+\b)\W+
.
Coloque este regex na caixa Substituir por para manter uma ocorrência da palavra (caso contrário, todas as palavras repetidas serão removidas): ${1}
.
Essas expressões regulares corrigirão uma situação como a que você descreveu na sua pergunta como exemplo. O primeiro regex funcionará para cada número de palavras duplicadas (por exemplo, dangerous, dangerous, dangerous, dangerous, hazardous
), enquanto a segunda versão funcionará apenas para duas palavras duplicadas (por exemplo, dangerous, dangerous, hazardous
).
Observação: a expressão regular só se aplicará ao formato descrito na pergunta, o que significa que formatos como two words, two words, anotherword
, two-words, two-words, anotherword
, three words expression, three words expression, anotherword
não serão alterados porque a regex ganhou aplica-se a eles.