Como remover quebras de linha (ou retornos de carro) apenas de certas partes de um bloco de texto?

6

Sempre que copio texto formatado de um arquivo PDF formatado para quebras de linha (ou retornos de carro), preciso encontrar uma maneira de remover essas quebras de linha sem remover o formato de parágrafo.

Para fazer isso, eu preciso usar o RegEx (expressões regulares) para remover apenas as quebras de linha que não são precedidas por um período.

Assim, por exemplo, se uma sequência de texto tiver uma quebra de linha logo após um período, isso é obviamente quase sempre uma quebra de linha legítima que iniciará um novo parágrafo. Se uma sequência de texto tiver uma quebra de linha no meio da palavra ou depois de uma palavra sem período, isso é simplesmente parte da formatação incorreta da qual preciso me livrar.

Meu problema é que eu não sei como usar o RegEx para fazer com que ele remova apenas as tags ^ p na palavra ou CRLF ou quebras de linha em qualquer formato sob as condições que ele omitir depois de um período.

    
por Luke Allen 02.09.2012 / 08:16

4 respostas

3

Solução para o MS Word:

  1. Abra o Localizar & Substitua ( Ctrl + H ) e marque a opção "Usar curingas". Se você não vir a opção "Usar curingas", clique em "Mais".
  2. Copie o seguinte na caixa "Localizar": ([!.])^0013
  3. Copie o seguinte na caixa "Substituir o quê":
  4. Clique em "Substituir tudo"

Explicação:

  • [!.] significa "encontrar todos os símbolos, exceto o ponto"
  • ^0013 é uma marca de parágrafo, portanto, em "Localizar o que", encontraremos todos os símbolos não pontuados seguidos por uma marca de parágrafo
  • Parênteses significa que colocaremos esse símbolo não pontuado na memória para usar depois
  • \ 1 substitui nosso símbolo memorizado no local em que o encontramos

Observe que o ^0013 não está dentro dos parênteses, portanto, o texto final não teria marcas de parágrafo.

    
por 29.01.2013 / 10:02
0

No Word, tente localizar e substituir a quebra de linha manual ^l pela marca de parágrafo ^p .

    
por 02.09.2012 / 08:42
0

Como as frases podem terminar em mais pontuação do que em um período, atualizei a resposta do hsawire para:

  1. Encontre todos os símbolos, exceto ponto, ponto de interrogação, ponto de exclamação, citação fechada ou dois pontos.
  2. Além disso, em alguns casos, você desejará adicionar um espaço depois de na caixa "Substituir o que" para não combinar a última palavra em uma linha com a primeira palavra da próxima linha.

Solução para o MS Word:

  1. Abra o Localizar & Substitua ( Ctrl + H ) e marque a opção "Usar curingas".
  2. Se você não vir a opção "Usar curingas", clique em "Mais".
  3. Copie o seguinte na caixa "Localizar o quê": ([!.\?\!"':])^0013
  4. Copie o seguinte na caixa "Substituir o quê":
  5. Clique em "Substituir tudo".

Explicação:

[!.\?\!"':] significa "encontre todos os símbolos, exceto ponto, ponto de interrogação, ponto de exclamação, cota fechada ou dois pontos". - ^0013 é uma marca de parágrafo, portanto, em "Localizar o que", vamos encontrar todos os símbolos não pontuados seguidos por uma marca de parágrafo. - Parênteses significa que colocaremos esse símbolo não ponto na memória para usar mais tarde. - substitui nosso símbolo memorizado no local em que o encontramos.

Observe que o ^0013 não está dentro dos parênteses, portanto, o texto final não teria marcas de parágrafo.

    
por 04.09.2015 / 17:36
0

Uma maneira muito mais fácil de criar / modificar um bloco de endereços antes de cortá-lo e colá-lo em um email ou outro documento é declarar uma tabela de 3/4 linhas e digitar os dados de endereço em cada linha. Então se livre das linhas.

    
por 29.03.2016 / 10:44