Diferença entre o Amazon S3 Select e o Amazon Redshift Spectrum

1

O Amazon Redshift Spectrum permite que você execute consultas diretamente em seus dados armazenados no Amazon S3. Esse também parece ser o objetivo do novo serviço Amazon S3 Select. Quais são as principais diferenças entre esses dois serviços? Por que devo escolher um sobre o outro?

    
por Ryan Hilbert 16.03.2018 / 15:44

1 resposta

3

O S3 Select está focado em recuperar dados do S3 usando SQL:

S3 Select, enables applications to retrieve only a subset of data from an object by using simple SQL expressions. By using S3 Select to retrieve only the data needed by your application, you can achieve drastic performance increases – in many cases you can get as much as a 400% improvement compared with classic S3 retrieval.

O Redshift Spectrum permite a consulta de dados do S3 diretamente do seu cluster do AWS Redshift:

Amazon Redshift Spectrum enables you to run Amazon Redshift SQL queries against exabytes of data in Amazon S3. With Redshift Spectrum, you can extend the analytic power of Amazon Redshift beyond data stored on local disks in your data warehouse to query vast amounts of unstructured data in your Amazon S3 “data lake”

A Athena está focada em extrair, transformar e carregar (ETL) dados do S3 e tem uma boa integração com o AWS Glue:

Athena is easy to use. Simply point to your data in Amazon S3, define the schema, and start querying using standard SQL. Most results are delivered within seconds. With Athena, there’s no need for complex ETL jobs to prepare your data for analysis. This makes it easy for anyone with SQL skills to quickly analyze large-scale datasets.

Referências: Athena , Spectrum e S3 Select

    
por 16.03.2018 / 19:18