extrai texto do txt um arquivo [duplicado]

0

Eu tenho um arquivo contendo cerca de 20 milhões de frases, como extrair 2 milhões de sentenças dele? Eu pensei em usar o comando split como este "split -l 2000000 sub2016", mas então ele irá criar uma série de textos, enquanto eu só preciso de um. Então, como posso especificá-lo? Obrigada!

    
por Fangting Xu 14.01.2016 / 13:29

1 resposta

1

Se você quiser os dois primeiros milhões de linhas:

head -n 2000000 sub2016

Se você quiser um bloco de dois milhões de linhas tomadas aleatoriamente no arquivo:

tail -n +$((RANDOM * RANDOM % 18000000)) sub2016 | head -n 2000000

Isto escolhe dois números aleatórios entre 0 e 32767, multiplica-os, reduz o alcance para 18 milhões (20 milhões menos 2 milhões), pula muitas linhas e gera dois milhões de linhas.

    
por 14.01.2016 / 13:33