Arquivando Várias centenas de páginas da Web para um documento ou pdf [fechado]

1

Eu trabalho para uma biblioteca universitária e tenho que arquivar nosso Boletim Universitário (as regras, regulamentos, departamentos, cursos, etc). Eu fiz o mais recente, mas agora tenho que fazer todos os anos de volta a 1997. 2014-15 foi de 3.100 páginas e levou cerca de 1,5 semanas para finalmente se reunir. Fiz cada página uma de cada vez, copiei para o Word, formatei um pouco e salvei todos os documentos do Word em PDF. Preciso ter documentos pesquisáveis e manter algum tipo de Índice / Marcadores para que possa ser facilmente navegado. Eu encontrei uma maneira de obter o download de HTML para cada página do departamento, pegando os links através do elemento inspecionar no navegador e, em seguida, usando o HTTrack para baixá-los.

Mas agora eu enfrento basicamente o mesmo problema de ir a cada site e copiar texto de colagem. Não há uma boa maneira de fazer isso. Eu tenho o Acrobat X, mas isso não mantém nenhum dos marcadores / títulos e é muito difícil manter uma aparência semelhante de uma página para outra. Eu também continuo tendo problemas com gettign "Clean" documentos que eu posso transformar em PDF / A. Eu acho que estou apenas olhando para ver se alguém já lidou com algo semelhante ou poderia pensar em alguma solução que eu poderia colocar juntos. Eu posso fazer o upload do arquivo 2014-15 se isso ajudar. Eu nem sei se esse é o melhor Exchange para usar. Qualquer ajuda seria muito apreciada!

    
por crabab11 20.01.2015 / 21:29

1 resposta

1

Você pode usar o recurso WebCapture do Acrobat Pro, com as configurações apropriadas (permanecer no mesmo servidor, permanecer dentro da filial, etc.).

    
por 20.01.2015 / 22:55