Estou revisando texto simples gerado por OCR em páginas da web, limpando erros de digitação (scanos) que eu pesquiso e substituo usando strings Regex. Meu problema é com o ">" e "" < "caracteres. Como eu especificaria esses caracteres em uma pesquisa global sob essas condições?.
Abaixo está um exemplo de algum texto digitalizado a ser limpo. O texto está em uma página da Web e uso o Firefox ou o Chrome, não um editor off-line. Não importa qual sistema operacional é usado, mas para todas as informações, uso o Windows 7 ou o Xubuntu. Eu estou usando um script javascript personalizado projetado que destaca caracteres indesejados definidos como uma seqüência de pesquisa Regex, mas não excluí-los! Eu faço a limpeza manualmente.
Eu posso adicionar minhas próprias strings Regex e adicionei as duas seguintes, mas elas não funcionam, devido ao html subjacente.
/ > / g, // ">" /
INTRODUÇÃO
XVIII
Importava a maggior gabella; e che egli non man- cherebbe. (Bianchi, p. 490.)
(o arrendamento) envolveu o imposto mais alto, e que ele não falharia em sua palavra.
A fazenda produziria mais e não poderia bly falhar. (Roscoe, p. 475.)
Eu selecionei estas poucas instâncias aleatoriamente, quando Eu poderia ter abatido o gosto por punhados. Mas eu posso Além disso, suponha que Roscoe não seja menos negligente na tradução do italiano dos comentadores de C & ll llini. Assim, "lemos na página 265 esta versão de uma nota de Carpani: "Ele estava apreensivo de ser esfolado vivo. "Carpani escreveu scannato, o que significa ter sua garganta cortou. 1 Permanece no último (olace a ser re- assinalou que Roscoe não é dispensado por ter baixou leituras ruins de [ele original ou incompleta toridades. Sua tradução (datada em sua segunda edição, 1 de janeiro de 1847) apareceu após os trabalhos de Car- Pani, Tassi e Molini, e professa o título página a ser "confrontada com o novo texto de Giuseppe Molini ".
Eu tenho agora < mostrado motivo pelo qual uma nova tradução da autobiografia de Cellini em nossa língua não é um superfluido. Ao mesmo tempo, após severas críticas cising meu predecessor, eu nego a pretensão de que minha própria versão será considerada impecável. tem muitas passagens que é extremamente difícil para um Italiano mesmo, versado no velho dialecl da Toscana, para
1 Carpani, vol. Eu. p. 423.