Pergunta de compressão estranha

1

Estou tentando compactar alguns dados brutos do sensor de gravações antigas que eu preciso e não quero remover do meu servidor Centos.

Os dados gravados estão em um formato proprietário, mas para todos os efeitos, podemos caracterizá-los como gravações de áudio PCM de 32 bits de 306 canais a 1000 Hz. Com algumas centenas de linhas de metadados de texto não criptografado no cabeçalho do arquivo. Os arquivos variam de 100 MB a 1,9 GB em diretórios em torno de 7 GB, os diretórios de arquivos processados podem ter até 60 GB contendo cópias de dados brutos com filtros aplicados aos dados.

Aqui está o bocado estranho. Eu posso comprimir os dados brutos até 30% do tamanho original com bzip2 e 26% do original com pxz. Resultados semelhantes com lzrip usando o ZPAQ. Mas dados processados PCM 32bit variável eu só posso depilar 10 a 12 por cento de desconto. Dados processados curtos de 16 bits, posso comprimi-los para cerca de 50% do tamanho original. O processamento de dados simplifica os dados de gravação e há menos variação na gravação.

Alguma sugestão? Alguém tem algo parecido? Eu quero o máximo de economia de espaço possível nos dados processados e planejo verificar os dados depois para garantir que não haja erros. Alguma idéia de por que dados simplificados do processamento são menos compactáveis do que raw?

// edit - olhando para o FLAC, mas converter de volta para o formato original pode ser problemático. Não é impossível .. Ainda procurando.

// edição da solução. A FLAC não gostou de 370 canais de dados. Mas consegui ganhar alguma compressão criando meu próprio dicionário grande e treinando-o com segmentos de arquivos grandes.

    
por Imsorryk 19.06.2017 / 19:19

1 resposta

1

Você tem documentação sobre o formato? Escreva um pequeno programa para converter o formato original em um PCM wav + metadados + dados 3D e vice-versa. Se é uma superposição de sinais em diferentes freqüências, ele deve compactar bem com algoritmos de compressão de áudio sem perdas, como o FLAC.

FLAC é como MP3: comprime os dados de áudio, reescrevendo-os em um formato diferente. Então, não é o que eu chamaria de "wrapper" (eu não chamaria nenhum programa de compactação de "wrapper"). Mas ao contrário do MP3, as compressões são sem perdas: quando você descompacta, você obtém exatamente os mesmos dados, como em bzip2 etc. A taxa de compressão para FLAC nos dados de áudio é de aproximadamente 50%.

Existem várias maneiras de armazenar os metadados no áudio compactado, dependendo do formato do contêiner. Também é possível colocar todos os três arquivos em um arquivo, formato do seu chouce, embora os dados compactados do PCM não sejam mais comprimidos.

    
por 19.06.2017 / 21:52