Que recursos são importantes em um scanner + alimentador de documentos pessoais antigos [fechados]

0

Gostaria de digitalizar alguns documentos de texto antigos. Meu objetivo é duplo: recuperação de desastres (por exemplo, fogo) e economizar espaço em documentos volumosos aos quais raramente me refiro (por exemplo, contas de telefone antigas).

Após a digitalização, pretendo destruir alguns dos originais, onde raramente me refiro a eles e eles são volumosos. O resto vou manter e continuar me referindo. Eu não pretendo OCR os documentos.

Eu estimo que há alguns milhares de lados do A4 para escanear, e estou apontando apenas para algumas falhas (lados perdidos ou ilegíveis) por 1000 lados escaneados. Por ilegível quero dizer texto que um ser humano não pode ler de forma confiável.

Eu gostaria de fazer isso sozinho, em vez de usar um serviço comercial.

Acredito que os documentos sejam bastante típicos do que os usuários domésticos coletaram em seus arquivos no passado, digamos 10 ou 20 anos:

  • Principalmente (talvez 80%) de tamanho de papel padrão ou próximo ao tamanho padrão (A4, seria presumivelmente nos EUA)
  • Algumas contas que são maiores que A4 (menos de 10%)
  • Um pequeno número de páginas "muito diversas" (menos de 10%)
  • Papel de qualidade relativamente plana e de boa qualidade
  • Os documentos são impressos em vários documentos, pois incluem notas, recibos, cartas, etc.
  • Muitos, mas nem todos os documentos são impressos em ambos os lados
  • Uma mistura de cores e apenas em preto e branco. A maioria dos documentos não usa cores de maneira importante
  • Uma minoria de páginas com alguns gráficos e imagens, etc. (talvez 5 ou 10%)
  • Uma minoria de páginas amareladas (menos de 5%)

Eu gostaria de digitalizar em cores porque não quero verificar se todas as informações de cor não são importantes. Irei excluir documentos de grande formato (por exemplo, A3), mas gostaria idealmente de digitalizar contas com mais de A4.

Eu não me importo de escanear os "casos estranhos" folha por folha, mas gostaria de economizar tempo usando um alimentador de folhas onde for possível. No entanto, eu antecipo que um scanner profissional de alto nível não é realmente necessário. Além disso, contanto que os documentos ainda sejam humanos legíveis, o dano ao papel não é muito importante.

Além do dpi, quais recursos em um scanner e alimentador de folhas são importantes para um trabalho como este? Por "recursos" quero dizer recursos técnicos específicos (ou características de desempenho) do design, em vez de categorias amplas como "confiabilidade".

Não estou procurando recomendações de produtos. Gostaria de saber quais recursos são relevantes para essa escala de aplicativos.

    
por Croad Langshan 29.03.2015 / 19:49

3 respostas

1

Se as suas páginas (ou algumas delas) estiverem dobradas ou estiverem enrugadas (por exemplo, papel seco após exposição a água ou alta umidade), é melhor escolher um scanner com CCD em vez de CIS. Os elementos CCD têm uma profundidade de campo muito maior que o CIS. A digitalização desse papel com um scanner CIS resultará em áreas não definidas na sua digitalização. OCR geralmente falha em áreas não definidas. Você pode aprimorar essas áreas com configurações no driver ou com o software, mas isso ainda pode não ser suficiente para obter um OCR confiável. Com um scanner CCD, você evita o problema em primeiro lugar.

Com relação a páginas maiores que A4: Provavelmente, todos os scanners de alimentação de folha no seu ponto de preço suportam isso. É normalmente uma configuração no driver do scanner que desativa a detecção de alimentação de várias páginas por tamanho.

A comparação de scanners pela velocidade anunciada (páginas / imagens por minuto) pode ser muito enganadora. Alguns produtores afirmam isso em outras 150 em 200 ou 300 dpi. A velocidade depende muito das configurações do driver do scanner que você escolheu. Exemplo: Se você digitalizar um artigo de jornal / revista com imagens / gráficos (impressos em tela) a 300 dpi e apontar para um tamanho de documento pequeno, será necessário escolher a função de tela verde no driver. Isso fará com que seu scanner diminua consideravelmente. Embora você defina 300 dpi para essa digitalização, a velocidade será comparável a uma digitalização de cerca de 600 dpi (lembre-se de que falamos de scanners de documentos baratos apenas para 500 libras esterlinas).

Escolha um scanner com LEDs como fonte de luz em vez de lâmpadas de descarga catódica fria, que é um tipo mais antigo de iluminação. Os LEDs têm uma vida útil mais longa e não precisam de um tempo de aquecimento.

    
por 30.03.2015 / 15:02
0

Quanto a qualquer trabalho dessa importância, eu diria que a confiabilidade do produto / empresa é importante. (As especificações não importam se a qualidade da digitalização for baixa ou se o alimentador se romper.) Além disso, suponho (embora possa estar errado, é claro) que todos os scanners hoje tenham dpi alto o suficiente e consigam para enviar para os tipos de arquivos usuais (jpeg para menor tamanho de arquivo, png para maior qualidade, etc.)

No entanto, eu recomendo tomar um momento para considerar se a preservação digital é confiável o suficiente. Por exemplo,

  • Temos certeza de que um DVD, HDD ou unidade flash armazenará sua memória para muitos anos (supondo que você quer isso por muitos anos).
  • Temos certeza de que poderemos ler os arquivos daqui a uma década? (Pense no tipo de arquivo e no tipo de hardware. - como você leria as informações? de um disquete hoje?!)

Veja Preservação Digital na Wikipedia. E esta resposta neste site.

    
por 29.03.2015 / 20:21
-1

Supondo que você pretenda continuar digitalizando documentos recebidos regularmente (se você planeja apenas digitalizar os antigos, é melhor executá-los em um serviço de varredura):

Perfis de digitalização, alguns produtores de scanners chamam de predefinições de digitalização, tornarão seu trabalho muito mais fácil e rápido. Com um perfil / predefinição, você salva uma combinação de configurações do driver do scanner para reutilização posterior. Exemplo: Perfil A para impressão em preto liso em papel branco padrão, B para artigos em revistas coloridas, C para comprovantes de tamanhos diferentes (por exemplo, cortar automaticamente em tamanho original em vez de digitalizar pequenos pedaços em tamanhos de página padronizados), D para papel fino com impressão em ambos os lados (configurações do driver, por exemplo, transparência transparente ou transparente), E para documentos com comprimento extra, etc.

Considerando os documentos mencionados, você provavelmente chegará ao ponto de precisar de mais de 9 perfis de verificação. Muitos scanners ADF oferecem apenas 9 perfis, alguns até menos. Alguns produtores implementam perfis de digitalização no driver, outros no software "utilitário de digitalização". Alguns oferecem botões de hardware para escolher entre os perfis. Muitos modelos com botões de hardware e exibição mostram apenas o número do perfil sem texto adicional. Você vai se lembrar mais tarde do perfil 3? Alguns scanners têm um display que mostra o texto também, para que você possa dar aos seus perfis nomes falados. E mais de 9 perfis? Geralmente implementado em software - mas essas demandas levam você rapidamente além do hardware / software de nível de consumidor.

Eu recomendo comprar um scanner onde o corte automático já é suportado no driver. Se você tiver que recortar seus scans com software adicional, terá que conviver com muitos compromissos. Então, melhor não contar com a atualização deste recurso com software adicional em um estágio posterior. O autochoque fiável é muito difícil de implementar apenas no nível do software (e requer alguma potência da CPU). Mesmo que um software de terceiros de nível de consumidor afirme apoiar o corte automático, você obterá muitos resultados falsos (de não ser cortado o bastante para ser cortado demais, até mesmo cortado completamente ao acaso - há software de consumo e semiprofissional para cerca de 200 USD que cortaram completamente aleatoriamente nos meus testes).

Por que não limitei minha resposta ao hardware? Porque comprar um scanner não é como comprar uma impressora como aqueles que não usaram um scanner de documentos antes podem pensar. O diálogo de impressão é mais ou menos padronizado e as variações são bastante limitadas em muitos produtores e modelos de impressoras que usamos para nossas necessidades gerais de impressão. Os drivers WIA (Windows) para scanners são padronizados da mesma forma, mas você obtém apenas uma fração dos recursos do seu scanner. Drivers TWAIN são uma história completamente diferente. Se você não tem experiência anterior com drivers de scanner e processamento de imagens, o tempo necessário para entender e usar o driver do scanner e o software utilitário de varredura em seu potencial máximo pode variar muito dependendo do produtor do scanner e até mesmo do modelo do produtor. E mesmo depois de entender um modelo, você pode se perder com outro, a ponto de querer sair da janela.

Depois de comprar seu scanner, você fica preso a seu (s) driver (s) e software utilitário de digitalização - supondo que não esteja preparado para ir além de seu orçamento com software adicional de terceiros ou não deseje ou consiga corrigir seu fluxo de trabalho com scripts ou percorrer manualmente as etapas do processo com vários softwares gratuitos ou de código aberto. Se você estiver disposto a gastar mais recursos de processamento de imagem adicionais, mais perfis de varredura, mais automação (nomeação de arquivos, distribuição de arquivos para pastas específicas etc.), ele fica caro rapidamente porque você entra em um mercado focado em empresas maiores que estão se movendo lentamente para pequenas empresas com recursos limitados de TI. Suas necessidades de digitalização se sobrepõem às necessidades de muitas pequenas empresas ou SOHOs.

    
por 04.04.2015 / 00:04