Basicamente, isso se torna uma longa lista de itens a serem excluídos:
sed -r 's/(^[[:digit:]]+\b|\b[[:digit:]]+[[:punct:]]*[[:alpha:]]+\b|\b[[:alpha:]]+[[:digit:]]+[[:alpha:]]+\b|\b[[:alpha:]]+[[:punct:]]+[[:alpha:]]+\b|[[:punct:]]+.*[[:punct:]]+)//g' file
Exclua estes:
- dígitos no início da linha
- palavras que começam com dígitos, podem incluir pontuação e terminar em caracteres alfabéticos
- palavras que consistem em caracteres alfa, seguidos por dígitos, seguidos por alfa
- palavras que consistem em alfa, punct, alfa
- sequências que começam e terminam com punct chars