Procura números persa / arábicos em arquivos html?

0

Eu tenho em cerca de 50 arquivos html que são sobre pagamentos bancários de uma empresa.Eu tenho que procurar em números de série em arquivos.Eu uso Agent Ransack para pesquisar em conteúdos de arquivos.Mas o meu problema está em cerca de formato de números em HTML arquivos persian / arabic; como ۲۶۴۲۰۸۵۷ .Mas este número não é armazenado na fonte como 26420857 .Realmente, ele é armazenado na origem do arquivo html como uma String como esta: ۱۳۹۲/۱۱/۲۵ !

Então, quando tento encontrar um arquivo que contenha 26420857 , o resultado será vazio. Como posso resolver esse problema?

Eu tento converter números para &# format, mas não sei como posso fazê-lo.Também tento usar o notepad ++ para converter &# format numbers para números usuais, mas não consegui.

    
por hasanghaforian 14.02.2014 / 19:00

1 resposta

1

Você pode usar o Microsoft Word para ler o HTML e salvá-lo em um arquivo "texto simples", especificando a codificação como UTF-8 ou ISO árabe. Eu suponho que você poderia pesquisar no Word o texto em árabe sem salvar o arquivo também.

Como alternativa, se a página HTML estiver em árabe e não estiver em inglês / árabe, tente google translate . São necessários links de URL ou você pode simplesmente copiar / colar o conteúdo do HTML diretamente.

    
por 14.02.2014 / 21:00