Usando SQL para mesclar o arquivo .xlsx e mais de 1.000.000 linhas?

0

Estou tendo problemas com uma operação que acredito ser limitada pelo tamanho do cisalhamento dos dados - a operação é uma mesclagem e filtragem de duas pastas de trabalho do Excel, cada uma com mais de 1 milhão de linhas.

Talvez haja alguém disposto a exercer algum domínio aqui para me ajudar a entender o caminho que devo seguir. Eu gostaria de usar o SQL no Microsoft Access.

As duas pastas de trabalho são dados do veículo e dados de acidentes. Ambos contêm informações relacionadas a acidentes rodoviários no Reino Unido. A pasta de trabalho do veículo oferece informações relacionadas a cada veículo (número de identificação do acidente, tipo de veículo, velocidade do veículo ...). A pasta de trabalho do acidente oferece informações relacionadas ao acidente (número de identificação do acidente, long, lat, casualties ...).

Eu quero combinar as duas pastas de trabalho em uma pasta de trabalho usando os dados do veículo como a pasta de trabalho principal. Portanto, adicione informações às linhas da pasta de trabalho do veículo a partir das linhas da pasta de trabalho do acidente usando os números exclusivos de IDs de acidentes. Nota: ambos têm números únicos de identificação de acidentes, no entanto, a pasta de trabalho do veículo muitas vezes lista os números únicos de acidentes, porque muitas vezes há vários veículos em acidentes de trânsito (28 veículos são os maiores registrados neste conjunto de dados). Portanto, as linhas precisariam chamar e, posteriormente, listar as informações da pasta de trabalho do acidente mais de uma vez.

Eu acho que seria melhor aprender um pouco de SQL porque acredito que o SQL pode executar minha segunda tarefa como sinônimo.

Tarefa 2. Gostaria de isolar um determinado veículo do conjunto de dados depois que ele foi mesclado. Eu gostaria de isolar os dados da bicicleta, que inclui todas as informações em uma linha para criar tabelas dinâmicas e conectá-las ao QGIS.

Assim, o produto final será uma única tabela de dados de acidentes de bicicletas que contém todos os dados de cada incidente derivados de duas pastas de trabalho.

Alguém poderia me ajudar a começar?

Pelo que entendi, eu preciso combinar os dois como servidores vinculados, o uso de TSQL para realizar a filtragem.

    
por Daniel Patterson 07.06.2016 / 22:07

1 resposta

0

Você pode usar o Consulta do Microsoft Add-In Power para mescla vários arquivos juntos.

No Power Query, existem algumas limitações . No entanto, você deve conseguir mesclar mais de 1 milhão. linhas dependendo da memória livre no seu sistema (para grandes dataset você deve usar a versão de 64 bits). O conjunto de dados final deve ser inferior a 1 milhão. linhas se você exportar a tabela em uma planilha do Excel.

    
por 08.06.2016 / 08:53