Perguntas sobre 'big-data'

7
respostas

Como se verifica a identidade de arquivos grandes se o hashing está limitado à CPU?

Para arquivos pequenos, o hash é ok, mas com os grandes, é possível encontrar facilmente md5sum na CPU. Existe algum algoritmo de hashing capaz de se expandir em múltiplos núcleos? Alguma solução alternativa? Idéias? Qualquer coisa? :)     
26.06.2016 / 12:59
1
resposta

Recuperando espaço livre no grupo de arquivos com partição cronológica única

-movido aqui de SO (não comentários lá) Pergunta: qual é a maneira correta de recuperar espaço em um grupo de arquivos grande (centenas de GBs) com partição única de tabela que é ordenada cronologicamente e não tem fragmentação de índi...
19.04.2015 / 11:25
2
respostas

Qual é a melhor maneira de armazenar imagens do site? [fechadas]

Estamos usando o banco de dados de cassandra para informações do site da loja, mas não temos certeza de como salvar as imagens. Podemos armazená-los no cassandra, mas também podemos alocar um servidor para armazenar imagens. O Cassandra te...
16.07.2013 / 15:56
1
resposta

Infraestrutura do Apache Spark - combinando nós de computação e armazenamento

Eu tenho uma pergunta de infraestrutura em torno do Apache Spark, que estou analisando em um projeto greenfield com (no máximo) aproximadamente 4 TB de dados usados para modelagem a qualquer momento. O domínio da aplicação será analítico e o tre...
13.06.2015 / 12:41
1
resposta

Conseguimos editar o esquema da tabela bigquery após a criação?

Eu cometi um erro ao especificar um campo como inteiro ao invés de float. Descobri que não sou capaz de corrigir um campo depois que a tabela é criada. Eu tenho que excluir e recriar a tabela novamente para fazer as coisas direito. Alguém sabe d...
06.12.2017 / 04:40
2
respostas

Quão ruim é o Network Attached Storage para determinados aplicativos em nuvem?

Ouvi dizer que é recomendado ficar longe da hospedagem da AWS para certos aplicativos de "big data" (por exemplo, Hadoop, Cassandra, Solr) porque as instâncias do EC2 normalmente usam armazenamento conectado à rede (embora haja mais recentemente...
14.08.2013 / 23:37
0
respostas

Falha no reparo do nodetool Cassandra - tubo quebrado

Estamos tentando verificar a integridade dos dados do cluster Cassandra com: nodetool repair mas depois de vários minutos (~ 2-10min), obtivemos restaurações de conexão / cano quebrado rastreamento de pilha em um primeiro nó: ER...
14.01.2016 / 17:31
1
resposta

Existe uma maneira de enviar (por email) discos externos para serem instalados no azure?

Temos muitos TBs de dados em discos externos (passaportes WD) e desejamos processá-los usando as VMs do azure. O upload levará uma eternidade (e a largura de banda provavelmente custará muito). Existe uma maneira de enviar um pacote com es...
05.05.2015 / 12:33
1
resposta

Cloudera SCM Agent não pode pulsar, mas a porta é contatável

Estou tentando adicionar nós a um cluster Cloudera. Quando o agente inicia, recebo um stacktrace python dizendo que ele não pode pulsar para o master-host: 7182, no entanto, posso me conectar a essa porta muito bem. O stacktrace é do Python e...
22.03.2016 / 09:33
0
respostas

Presto Máximo de sessões simultâneas

O Presto não pode lidar com muitas sessões simultâneas. qual é o número máximo de sessões simultâneas por presto e como definir o parâmetro para isso? e como lidar com sua JVM máxima?     
23.01.2017 / 19:58