Como converter uma página da Web em PDF preservando sua aparência (exatamente como no navegador da Web) e texto / links?

14

Estou procurando uma maneira de converter uma página da Web em PDF, mas preservando a aparência da página da Web. Também preservando o texto da página da Web (sendo selecionável), pesquisável [Gerar captura de tela de imagem para a página da Web tornaria o texto não selecionável nem pesquisável].

Estou procurando imprimir a página da Web em PDF como está (como no navegador da Web) sem qualquer manipulação de estilo ou alinhamento ou perda de componentes estáticos de qualquer página da Web.

Isso ajudaria a preservar cópias off-line de páginas da Web que são facilmente legíveis, anotáveis e pesquisáveis.

Você não precisa ler nada abaixo (a questão é apenas a seção acima) para obter minha pergunta. A seção a seguir é apenas uma lista do que obtive através da pesquisa ou das respostas de outras pessoas de forma aninhada, a fim de obter uma resposta para a pergunta.

Resultados da pesquisa (sugestões que não resolveram meu problema)

Resultados até agora tentando encontrar uma solução (Tudo ainda não funciona como uma solução para essa pergunta)

Eu tentei esses mecanismos de impressão da Web em PDF, mas todos manipulam a aparência das páginas, mais até mesmo prejudiciais e tornando alguns dificilmente legíveis: ( Página de exemplo screenshots estão incluídos entre colchetes)

  • Chrome [ Original , Estilos de impressão ( Desativado | não desativado )]
  • Firefox [ Original , Estilos de impressão (desativado p1 , p2 não desativado p1 , p2 )]
  • Legibilidade
    • Simplifica a página da Web (o que é bom para a leitura focada - no entanto, não é isso que estou procurando). Estou procurando manter todas as propriedades de posições / estilos da página da Web, como visto no navegador da Web em um formato PDF sem qualquer manipulação.
  • Foxit Reader
  • NovaPDF
  • CutyCapt [ Original , < em> Fator de Zoom: 0.4 : Screenshots, Saída de PDF]
    • adicionarei links depois de resolver os problemas de execução do programa no Windows "
  • wkhtmltopdf [ Original , Fator de Zoom: 0,4 : Screenshots , PDF gerado ]
    • Não suporta CSS3.

Todos os plug-ins de captura de imagens da página da Web (por exemplo, Abduction , Screenshot incrível , Fireshot , Ferramenta para desenvolvedores de Screenshots do Firefox , Captura de tela de página inteira , Page2Images , web-capture , ...) não responde a minha pergunta, porque eles não preservam texto e links .

O

Scrible é excelente para preservar as páginas da Web, assim como para outras anotações e pesquisas, mas infelizmente ainda está on-line e sem conversão para o formato PDF.

Há duas outras perguntas sobre a comunidade, de alguma forma semelhantes às minhas, no entanto, esta é um pouco diferente, mas com essas distinções importantes:

More Similar questions where preserving text and links isn't a requirement (pages are captured as image screenshots mostly):

Notas

SO: Windows 10

    
por Omar 12.04.2016 / 17:17

6 respostas

4

Enfrentamos o mesmo problema em um projeto da Universidade e conseguimos resolvê-lo usando

wkhtmltopdf

Nós gostamos muito das capacidades desta ferramenta na linha de comando. Também o chamamos usando código python para renderizar o estado atual das páginas da Web. Tem a opção de entregar a página como pdf, geralmente não perfeita para preservar a visualização do site devido à formatação de página (A4 por exemplo) ou como png (preserva a visão da página, mas não links)

Existe também o projeto de legibilidade (para Python: pypi.python.org/pypi/readability-lxml) que usamos, que faz a remoção de anúncios e a detecção de conteúdo muito bem (por exemplo, para artigos de jornal e similares). Se você quiser apenas um complemento ou extensão para o seu navegador, a seguinte implementação de legibilidade pode satisfazer sua necessidade:

link

    
por 04.05.2016 / 13:31
1

Se você está no Linux, experimente esta pequena ferramenta de linha de comando CutyCapt , que depende apenas do Qt e do QtWebkit, e exporta para PDF.

    
por 13.04.2016 / 06:42
1

Eu tive o mesmo problema, e descobri através do Chrome e com um driver de impressora chamado PDF995, que baixei com segurança e de graça (um link para download é link outro é link ).

No entanto, acho que qualquer navegador da web e qualquer conversor de PDF será suficiente. De qualquer forma, aqui está o que eu fiz:

  1. selecione tudo ou destaque tudo.
  2. Clique com o botão direito na seleção destacada ou pressione Ctrl + P (ambas as opções apresentam resultados ligeiramente diferentes, mas você acaba com o mesmo resultado após a conclusão).

  3. Se você clicou com o botão direito do mouse em 2., a seleção (o atalho), clique em "imprimir" e somente tudo o que você selecionou estará na visualização da impressão. Certifique-se de alterar o destino da sua impressora para qualquer conversor de PDF que você decida usar (PDF995 ou outro).

  4. Clique em "imprimir" e salve como um documento pdf.

  5. Se você pressionou Ctrl + P em 2. (a maneira um pouco mais longa), clique em "Mais configurações" e role para baixo até "Opções".

  6. Clique na caixa que diz "Somente seleção" e tudo no atalho que descrevi seguirá.

  7. Não se esqueça de alterar o destino da sua impressora para o conversor de PDF que você escolher (PDF995 ou outro).

  8. Clique em "imprimir".

por 09.05.2017 / 01:16
0

Embora não seja exatamente sua solicitação como não em PDF, se o objetivo for manter apenas uma cópia off-line de páginas da Web para revisão posterior, salvá-la como página da Web faria exatamente isso.

O grande problema é que ele criará um arquivo .html e uma pasta com todo o conteúdo de mídia da página, em vez de um único documento.

No Chrome e no Firefox, você pode salvar uma página clicando com o botão direito nela e escolhendo Salvar como ... No Internet Explorer, você pode salvá-lo em Arquivo - > Salvar como (pressionando a tecla Alt para os menus aparecerem).

    
por 12.04.2016 / 17:31
0

Tente este serviço. Cria um PDF de um site como você o vê no navegador. link (Sou afiliado a este site)

    
por 09.10.2016 / 13:59
0

Pelo menos todo o texto em algumas páginas é pesquisável, selecionável, recortável e passível de pastilhagem. Eu tentei em uma página colada roboticamente por um computador fora do texto e pix e ele sintonizou tudo em uma imagem.

Eu tenho usado essas coisas há anos. Eu obtenho os melhores resultados no Linux, reconstruindo a página em uma palavra XX de sua escolha e exportando o resultado como um PDF. Eu posso conseguir o que eu quero a um custo considerável. Do meu uso limitado arch ivin O site David Herse colocou link (eu sou NÃO afiliado com este site) funciona bem como qualquer outro que já usei. Eu vou ser o meu recurso para cobrir páginas da web para PDFs até que eu ache melhor ou custa muito para eu pagar a minha própria bolsa fina.

    
por 04.03.2017 / 00:41