Em uma tentativa de dar a Q uma resposta adequada, baseado - on - the - comentários (heeding Nota do Sobrique que o XML de análise deve realmente ser feito com um analisador XML):
perl -CSD -lne 'print for /\w{63,}/g' input-file-here
Eu tenho um número de arquivos XML contendo textos em sânscrito para serem convertidos em tex . O Latex tem um máximo de 63 caracteres por palavra para que a sua hifenização funcione. Tudo o mais que não será hifenizado. Agora eu gostaria de grep meus arquivos para essas palavras, apenas que o grep não parece ser a ferramenta certa aqui. Algumas das palavras usam codificação IAST , outras Devanāgarī . Eu suponho que um perl one-liner poderia fazer isso?
Em uma tentativa de dar a Q uma resposta adequada, baseado - on - the - comentários (heeding Nota do Sobrique que o XML de análise deve realmente ser feito com um analisador XML):
perl -CSD -lne 'print for /\w{63,}/g' input-file-here
Tags grep latex perl regular-expression