(EDIT: Apenas para clareza, como observado por David, isso não vai funcionar no interpretador genérico cmd
. Este é mais um one-liner powershell)
Você poderia fazer algo assim:
cat chat.log | %{$_ -replace "\[[^]]*\] +[^ ]*: ",""} > words.txt
Traduzido: leia o conteúdo de chat.log
, em seguida insira isso em um comando para substituir qualquer coisa que se pareça com um timestamp / username na frente de cada linha e coloque o resultado em words.txt
Eu também adivinhei, para casos estranhos como:
[Jun 01 2015 02:24:15 UTC] swimsphinx: test2 [Jun 01 2015 02:24:15 UTC] swimsphinx: message
você deseja obter
test2 message
em vez de
test2 [Jun 01 2015 02:24:15 UTC] swimsphinx: message