A internet achive indexa a web como você mencionou, mas apenas preserva sites, não documentos, tanto quanto eu sei. Eles mantêm versões antigas de sites indexados, portanto, a necessidade de espaço pode ser muito maior. Em seu FAQ eles falam sobre 2 petabytes de espaço requerido para aquela tarefa ( link ) e sobre centenas de linux servidores, cada um com cerca de 1 TB de dados. Isso deve ser alguns números, o que deve dar uma primeira impressão.