Por que 'awk' / ^ [^ \ t] / {a ++} END {print a} '' não conta as linhas vazias?

Question

Por que 'awk' / ^ [^ \ t] / {a ++} END {print a} '' não conta as linhas vazias?

#1 resposta do (21 votos)
#2 resposta do (20 votos)
#3 resposta do (18 votos)
#4 resposta do (1 votos)

5

Por que o awk '/^[^\t]/{a++}END{print a}' não conta as linhas vazias (isto é, linhas que possuem apenas um novo caractere de linha)? Uma linha vazia não é iniciada não com a guia \t ?

awk regular-expression

por Tim 07.01.2018 / 18:53

4 respostas

Tags awk regular-expression

Rede sem fio com o CentOS Como dizer ao comando “cat” para não ficar ligado quando não houver caminho fornecido?

score 21 · Answer 1

Procurar por algo que não seja X não é o mesmo que procurar por linhas que não contenham X.

Se quisermos encontrar linhas que começam com uma guia, podemos usar o regex /^\t/ . Para encontrar o oposto, isto é, linhas que não começam com uma tabulação, é provavelmente mais simples colocar a negação em torno do padrão inteiro (em vez de em uma classe de caractere):

awk '!/^\t/ {a++} END {print a+0}'

a+0 para que uma contagem de zero seja zero, em vez de vazia.

Por outro lado, a expressão regular [^\t] requer algum caractere, mas não pode ser uma guia.

Se você deseja corresponder linhas vazias, então /^$/ ou $0 == "" . Ou para combinar linhas ou linhas vazias com apenas espaço em branco /^[[:space:]]*$/ .

score 20 · Answer 2

O motivo é que [^\t] requer um caractere. A nova linha ( $ ) não conta como caractere. Você precisa disso:

awk '/^([^\t]|$)/{a++}END{print a}'

score 18 · Answer 3

Na regex, [^\t] não significa "corresponder onde não há \t ". Isso significa "corresponder qualquer caractere, exceto \t ". A diferença crítica é que tem que haver um personagem para combinar. No caso de uma linha vazia, não há uma.

score 1 · Answer 4

Eu li a expressão correspondente / ^ [^ \ t] / como dizendo "linhas que não começam com uma aba". Se você está procurando linhas verdadeiramente vazias, isso deve funcionar:

awk '/^$/{a +=1;};END{print a;}' /your/file/goes/here

O '^' significa o começo da linha, e '$' significa o fim da linha, então colocá-los juntos significa que não há nada entre o começo e o fim. Eu não verifiquei como isso se comportaria em uma linha delimitada por CR-LF.