O xlsx
format usado pelo Excel moderno é, na verdade, um formato compactado. É um arquivo ZIP que contém arquivos de texto (XML) em uma determinada estrutura.
Se você compactar seu arquivo de texto simples com uma ferramenta de compactação ZIP semelhante, deverá obter tamanhos de arquivo semelhantes.
Além disso, como mencionado por Bradley Uffner e Morgen nos comentários, o Excel desduplicará as seqüências idênticas e armazenará apenas uma cópia delas. Não tenho certeza sobre os ganhos exatos de tal método, e isso dependerá do seu conjunto de dados, mas a compactação zip simples provavelmente levará você até o fim. 1
9.1.3 Physical Packages
Each Office Open XML document is implemented as a ZIP archive.
1 Meu palpite é que essa desduplicação é mais eficaz quando você tem várias planilhas, já que a compactação de zip se aplica independentemente a cada arquivo em um arquivo e apenas em seções limitadas dos dados por vez. Armazenando todas as strings juntas em um único arquivo, deve haver algum benefício para a compressão posterior. De maneira mais prática, se o formato de texto simples estiver em um único arquivo, provavelmente haverá pouca diferença.