Eu tenho um arquivo de URLs, no formato mostrado abaixo:
com.blendtuts/S
°=
com.blengineering.www/:http
±=
com.blenheimgang.www/le-porsche-museum-en-details/porsche-museum-3
²=
com.blenheimsi
³=
com.blenkov.www/page/media/18/34/376
´=
com.blentwell.www/bookmarks.php/jackroldan/sp
¸=
com.blentwell.www/tags.php/I
O tamanho do arquivo é em GigaBytes. Diga cerca de 250 GB do tamanho do arquivo.
Eu estava tentando inverter as palavras no arquivo e extrair apenas os domínios do texto. Eu tentei fazer isso usando os comandos do terminal do Ubuntu.
Deixe-me dizer o que tentei:
Primeiro eu removi os dados depois de "/" usando o seguinte comando:
~$ ex -sc '%s/\(\/\).*// | x' newfile.txt > ddm.txt
E o resultado como:
com.blendtuts/
°=
com.blengineering.www/
±=
com.blenheimgang.www/
²=
com.blenheimsi
³=
com.blenkov.www/
´=
com.blentwell.www/
¸=
com.blentwell.www/
Agora eu inverti o texto completo no arquivo usando a solução de: link
E obtivemos o seguinte resultado:
/blendtuts.com
°= /www.blengineering.com
±= /www.blenheimgang.com
²= blenheimsi.com
³= /www.blenkov.com
µ= /www.blentwell.com
¶= /www.blentwell.com
•= /www.blentwell.com
/www.blentwell.com
Mas ainda assim o problema não está resolvido. Eu gostaria de como é possível extrair URLs e colocá-los em outro arquivo usando o Ubuntu. Como você pode ver acima da saída, o que ainda tenho não é o domínio, tem uma barra invertida com ele.
Se houver outra solução para esse problema usando qualquer outro sistema operacional, avise-me. Eu prefiro ir com o Ubuntu.
Eu gostaria de extrair domínios do arquivo e separá-los para outro arquivo e isso também em um formato adequado.
Se eu obtiver o domínio exclusivo, será uma excelente solução para minha consulta. Caso contrário, estou usando o comando como:
$ sort filename.txt | uniq > save_to_file.txt
Por favor, tente não me dar uma solução usando o comando awk, pois ele não funciona no meu sistema.
Dados da amostra:
com.blendschutzrollo.www/d_chefsessel6_Maxx_Chefsessel_mit_Kopfstutze_Chefdrehsessel___Munchen__374
¯=
com.blendtuts/S
°=
com.blengineering.www/:http
±=
com.blenheimgang.www/le-porsche-museum-en-details/porsche-museum-3
²=
com.blenheimsi
³=
com.blenkov.www/page/media/18/34/376
´=
com.blenoir.www/lat
µ=
com.blentwell.www/bookmarks.php/bashment%20jack/re
¶=
com.blentwell.www/bookmarks.php/djcable/rt
·=
com.blentwell.www/bookmarks.php/jackroldan/sp
¸=
com.blentwell.www/tags.php/I
¹=
com.blentwell.www/tags.php/eurot
º=
com.blentwell.www/tags.php/mitarbeiters
»=
com.blentwell.www/tags.php/verw
¼=
com.blenzblog/tag/olympic-w
½=
com.blepharoplastyusa.www/albany-n
¾=