Como converter um arquivo persa em pdf para o formato de palavras da Microsoft?

1

Eu tenho um arquivo em pdf que é um script persa e é um da direita para a esquerda . Como o Persian usa o formato UTF-8, portanto, não posso convertê-lo em texto simples no Microsoft Word, mas também não consigo copiar e colar o texto que resulta em caracteres ilegíveis. Eu tentei um monte de softwares, como unipdf e e-Pdf Converter no entanto após a conversão ainda os personagens não são exibidos corretamente. Eu até tentei OCR, mas novamente o mesmo problema apareceu. O pdf não tem nenhuma senha ou restrições.

Alguém tem alguma outra ideia?

Editar: Eu realmente tentei criar um arquivo no MS Word e convertê-lo em PDF, depois disso novamente tive o mesmo problema com o arquivo PDF (até mesmo a codificação era conhecida)

    
por Mehdi 06.05.2015 / 15:09

3 respostas

1

Muitas vezes, arquivos PDF em scripts não-latinos (especialmente RTL, como árabe, hebraico e farsi) são gerados por um software que classifica LTR-ifies o texto no nível da palavra ou do fragmento da sentença ou glifos corretos para exibir, mas você fica rabugento com o texto "lógico". Nestes casos, há muito pouco a ser feito, exceto escrever um back-converter personalizado que efetivamente não é uma opção.

No entanto, se você puder descobrir como o arquivo é criado - o que geralmente é indicado nos metadados acessíveis usando leitores de PDF comuns - pode haver uma opção para abrir o arquivo no aplicativo que o gerou ou, pelo menos, você poderia tornar sua pergunta mais específica.

    
por 07.05.2015 / 11:46
0

Atualmente, trabalhei para converter um pdf em um texto persa editável. A melhor solução que encontrei é usar o google doc da seguinte forma.

  1. Você deve converter páginas em pdf em imagens. Para isso, você pode usar o Adobe Acrobat Reader (não é o Adobe Reader, que é gratuito) ou no Linux eu uso o GIMP para abrir um pdf e, em seguida, seleciono para abrir cada página em uma imagem separada. É sua própria escolha.
  2. Faça o upload dos arquivos de imagem para o Google Drive
  3. Acesse o Google Drive e clique com o botão direito em cada imagem e, em seguida, clique em open with google doc
  4. espere até o google doc abrir um texto editável da sua imagem
  5. Copie para a palavra

Eu não sei se existe algum método automatizado. Espero que em algum momento eu tenha tempo de fazer uma solicitação para fazer isso automaticamente.

    
por 15.07.2017 / 11:32
0

Eu tive o mesmo problema com a conversão de arquivos PDF para Word. Depois de copiar / colar no Word, a formatação foi alterada e causou problemas. Eu tentei vários conversores on-line, mas eles também falharam. O único método que funcionou foi o seguinte:

  1. Abra o arquivo PDF com o Adobe Acrobat Reader e, em seguida, no menu Arquivo escolha imprimir. Nos nomes das impressoras, escolha adobe acrobat. Sim você está prestes a criar um pdf a partir de um pdf!
  2. Abra o novo arquivo PDF com o Google Chrome (arraste e solte o arquivo     no Chrome).
  3. Agora, basta selecionar todo o texto (ctrl + A) e copiá-lo / colá-lo em um arquivo do Word em branco.
por 20.10.2017 / 07:25