Como extrair IDs de email de um documento usando o Word ou o Writer

2

Eu tenho um documento (.doc) com centenas de id de email nele colocado aleatoriamente no texto. Como faço para isolar os IDs de e-mail, para que eu possa exportá-los para meus contatos do Gmail?

Eu gostaria de uma solução para isso usando expressões regulares no Writer ou usando o recurso de pesquisa no Word ou por qualquer outro método.

    
por abel 23.09.2010 / 09:37

1 resposta

1

Uma solução completa e completa para isso seria um desafio formidável com qualquer ambiente suportado por regex, o Word / Writer, mais ainda. Veja este post para saber por que regexes não são uma panaceia para todo texto / email problemas de correspondência que surgem . Esse aviso fora do caminho, vamos ver se uma solução prática está ao alcance ...

Para mim, a solução prática provavelmente envolveria o uso de regexes em algum momento do processo, mas não sem antes preocupar-se com a existência de tais possibilidades nos dados: [email protected]@yahoo.com ... Se os emails realmente fossem distribuídos aleatoriamente em um arquivo de texto, seria necessário contabilizar esse caso - a possibilidade de encontrar dois e-mails próximos um do outro, sem nenhum separador óbvio. É bob@company e [email protected] ou é [email protected] com o texto inicial bob@ apenas sem sentido? Eu estou supondo exemplos convincentes semelhantes podem ser encontrados.

Uma primeira tentativa razoável para o problema pode estar em algum lugar ao longo destas linhas:

  1. encontre uma regex compatível com email com a qual eu possa morar (não é a perfeita!)
  2. encontre todos os e-mails no arquivo de texto usando essa expressão regular e coloque-os em novas linhas, acrescentando algum tipo de texto de marcador como "w00t" no início
  3. peça o arquivo (usando: comando order), separando todas as linhas 'w00t', aquelas com os e-mails que encontramos, do restante do lixo não correspondido
  4. percorra as linhas sem correspondência, uma por uma, para garantir que você não está perdendo dados reais. Se você achar que está, volte e modifique o regex em # 1 ou extraia manualmente esses e-mails antes de continuar com o passo # 2. Caso contrário, existe o perigo de que você esteja dividindo um email (que não corresponde ao regex) em partes, salvando uma parte e jogando fora a outra.
por 05.03.2011 / 07:49