Eu tentei alterar o conjunto de caracteres do arquivo .csv de UTF-16 para UTF-8 usando o comando unix
iconv -f utf-16le -t UTF-8//TRANSLIT <input file> -o <output file>
Depois de executar o comando de contagem de palavras, o conteúdo do arquivo foi reduzido para 466 linhas de 5600 linhas originalmente.