Para desduplicar, você precisa de sort -u
- só produzirá linhas exclusivas. Esta é uma opção especificada pelo POSIX, então você provavelmente a encontrará em qualquer sistema.
sort -u wordlist.txt | awk 'length($0) > 7'
Use aspas duplas para awk
se você estiver no Windows. Observe que a etapa de classificação não é opcional, pois uniq
requer que linhas duplicadas sejam adjacentes para removê-las.
Se você tiver problemas com Unicode, isso pode ser um problema de sua localidade. Você pode definir LC_ALL=C
para forçar a comparação de valores de bytes nativos - a ordem de classificação real não importa para você de qualquer maneira. Ou você pode usar iconv
para converter o arquivo de Unicode para outra codificação, se esse for o problema.