Perl one liner para encontrar palavras com mais de 63 caracteres

6

Eu tenho um número de arquivos XML contendo textos em sânscrito para serem convertidos em tex . O Latex tem um máximo de 63 caracteres por palavra para que a sua hifenização funcione. Tudo o mais que não será hifenizado. Agora eu gostaria de grep meus arquivos para essas palavras, apenas que o grep não parece ser a ferramenta certa aqui. Algumas das palavras usam codificação IAST , outras Devanāgarī . Eu suponho que um perl one-liner poderia fazer isso?

    
por muk.li 15.03.2016 / 13:31

1 resposta

2

Em uma tentativa de dar a Q uma resposta adequada, baseado - on - the - comentários (heeding Nota do Sobrique que o XML de análise deve realmente ser feito com um analisador XML):

perl -CSD -lne 'print for /\w{63,}/g' input-file-here
    
por 06.06.2016 / 18:36