Isso não é realmente o que eu chamaria de classificação.
Você pode espremer e transliterar todas as sequências não alfabéticas para novas linhas
tr -sc '[:alpha:]' '[\n*]' < PDF
ou (pelo menos com GNU grep) seqüências de correspondência e saída de caracteres word (alfa, dígitos decimais e sublinhados), uma por linha usando a opção -o
grep -o '\w*' PDF