Conte o número de palavras em um arquivo PDF

49

Como posso obter a contagem de palavras de um arquivo PDF? Eu acho que a maioria dos arquivos pdf para os quais eu quero obter uma contagem total de palavras tem uma camada de texto embutida, então eu não preciso de OCR.

A tarefa surgiu da busca de alguns artigos científicos de tamanho conhecido, por exemplo 15000 palavras. A maioria dos trabalhos moders são publicados em formato pdf

    
por osgx 13.12.2010 / 03:07

9 respostas

73

Resposta rápida:

pdftotext myfile.pdf - | wc -w

Longa resposta:

Se no Unix, você pode usar pdftotext :

e, em seguida, faça a contagem de palavras no arquivo gerado. Se no Unix, você pode usar:

wc -w converted-pdf.txt

para obter a contagem de palavras.

Além disso, veja o comentário de frabjous - basicamente, você pode fazer isso em uma única etapa canalizando stdout para um arquivo temporário:

pdftotext myfile.pdf - | wc -w
    
por 13.12.2010 / 03:39
10

Acabei de experimentar um programa gratuito, o Ábaco do Tradutor . Você pode arrastar e soltar vários tipos de arquivo (incluindo PDF) e ele abre um navegador com um relatório imprimível da contagem de palavras para cada documento. Funcionou bem para mim. (Ele é criado especificamente para contagens de palavras e tem apenas 435 KB ... ou seja, não é uma "grande aplicação"). O Ábaco do Tradutor não funciona no PDF 1.5 ou posterior.

Alternativamente : você pode apenas Ctrl + A selecionar todo o texto no Acrobat Reader e copiá-lo e colá-lo em um programa como o Microsoft Word (que tem uma contagem de palavras na barra de status na parte inferior da tela).

    
por 07.04.2011 / 02:36
10

Esta é uma tarefa difícil, não fácil de resolver. Se você realmente quiser um resultado exato, copie parágrafo por parágrafo para o visualizador de PDF em um arquivo de texto e verifique com a ferramenta wc -w . A razão pela qual não usar pdftotext nesse caso é: fórmulas matemáticas também podem ser incluídas na saída e consideradas como "palavras". (Como alternativa, você pode editar a saída obtida de pdftotext ). Outra razão pela qual isso pode falhar são os títulos: "4.3.2 Foo Bar" é contado como três palavras.

Uma maneira de contornar é apenas contar palavras começando com um caractere de [A-Za-z]. Então, o que eu costumo fazer é uma abordagem em duas etapas:

  1. obtenha a lista de palavras uniq e verifique se há muitos falsos positivos dentro dela:

    pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words

    Eu não uso um dicionário aqui, pois alguns erros de ortografia não contam como palavras.

  2. Pegue esta lista de palavras e use-a na saída do pdftotext:

    pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l

Sei que isso pode ser feito em um único liner, mas não consigo ver facilmente o resultado do filtro desde o primeiro passo. O -F pode ajudá-lo como indicado pelo comentário de moi abaixo (obrigado).

    
por 10.01.2013 / 10:28
2

Uma maneira simples de fazer isso, se você estiver usando o Acrobat Pro, é exportar o PDF para um documento do Microsoft Word e, em seguida, fazer a contagem de palavras no Word. Como alternativa, você pode exportá-lo para um arquivo de texto simples e usar um utilitário de contagem de palavras no editor de texto de sua escolha /. Acabei de fazer uma contagem de palavras em um artigo em pdf usando o método Word e levou 30 segundos para ser concluído.

Espero que isso ajude.

    
por 12.04.2016 / 05:01
1

Você pode instalar o OCRFeeder . Escolha Arquivo- > Importar PDF- > Detectar e reconhecer automaticamente todas as páginas- > Exportar para ODT e o documento do escritor do libreoffice estará pronto para contagem de palavras ou qualquer outra função RTF que você deseje usar.

    
por 18.08.2014 / 13:44
0

Acho o contador de palavras incluído nas ferramentas de abracadabra convenientes. A instalação é um pouco peculiar embora.

    
por 27.03.2013 / 20:41
0

Padrão de fato, que os tradutores usam desde aproximadamente 2000 é a Ferramenta de Contagem de Palavras do AnyCount Ele conta as palavras em PDF e outros 37 formatos.

    
por 06.11.2017 / 17:12
0

Você pode usar o JavaScript do console do Adobe Acrobat com o seguinte código, o que eu tirei da resposta de Dave Merchant no forums.adobe.com :

var cnt=0;
for (var p = 0; p < this.numPages; p++) cnt += getPageNumWords(p);
console.println("There are " + cnt + " words in this file.");

Testado com o Adobe Acrobat Pro DC 2018.011.20040 no Windows 7 SP1 x64 Ultimate.

Para ativar o Console JavaScript:

ParainiciarajaneladoconsoleJavaScript:

CTRL+J

FYI,sevocêtiverafonteLaTeXcorrespondenteaoPDF: Contagem correta de palavras de um documento LaTeX .

    
por 17.08.2018 / 05:40
-3
Ctrl + Desloc + F digite pesquisa avançada digite a palavra e ela contará quantas vezes ela está no documento. Não é ciência de foguetes.

    
por 28.03.2013 / 19:39