Como posso copiar esta citação do PDF? [duplicado]

4

Estou lendo uma cópia em PDF do artigo de Jerome H. Friedman " Mineração de dados e estatísticas: qual é a conexão? " usando o Google Chrome.

Ele contém uma citação divertida que eu quero copiar e colar no meu blog.

Eu usei o mouse para selecionar o texto da citação e pressione CTRL + C para copiar o texto. O documento é assim:

Quando colo o texto no bloco de notas, no estouro da pilha ou em qualquer outro lugar, o produto é algo sem sentido do tipo Wingdings:

➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏

O texto deve ficar assim:

A difference between statisticians and computer scientists in this field seems to be that when a statistician has an idea he or she writes a paper; a computer scientist starts a company.

Eu tive que digitar o texto manualmente. Isso é viável para uma citação tão pequena, mas como eu realmente copio o que vejo?

É algo incomum sobre o PDF, o navegador, o plug-in ou alguma combinação dos três?

    
por Iain Samuel McLean Elder 30.09.2012 / 16:31

3 respostas

6

A maneira mais confiável de fazer isso é usando o OCR.

Mas, como solução suja e rápida, você pode usar o Google Visualização Rápida da resultado da pesquisa para o seu link, na opção de visualização rápida use Ver > HTML simples .

Ele ainda contém texto distorcido e é bastante ilegível , mas uma grande quantidade de texto está correta e copiável . A pesquisa funciona aqui para que você possa usá-la para localizar o texto de destino e copiá-lo sem qualquer texto distorcido.

Exemplo detalhado aqui:
 Emseguida,useaopçãoVisualizarHTMLsimples. No versão HTML , você pode pesquisar e selecionar o texto equivalente como este: Colar no bloco de notas produz esta saída:

A difference between sta-tisticians and computer scientists in this field seems tobe that when a statistician has an idea he or she writesa paper; a computer scientist starts a company.

Não exatamente como exibido, mas perto o suficiente para que você possa trabalhar com ele.

    
por 30.09.2012 / 17:33
1

Você terá que descartar o texto corrompido que já está associado ao PDF antes de fazer o OCR novamente. A maneira mais fácil de fazer isso é salvá-lo no formato TIFF, abri-lo com o Acrobat e re-OCR. Quando eu fiz isso, funcionou para mim.

    
por 30.09.2012 / 17:06
1

Parece um PDF com codificação incorreta. Veja os seguintes tópicos:

Tente imprimir o PDF usando o CutePDF e veja se o PDF resultante é melhor.

    
por 30.09.2012 / 19:38