Recomendações para o hardware do Elastic Search [closed]

10

Há algum bom guia para o nível de hardware para suportar o ElasticSearch? As recomendações para Lucene ou Solr são um bom começo? Estamos pensando em implantar uma implantação começando com

  • 27 milhões de documentos, 8 TB de dados
  • adicione 300 mil documentos por dia

Em seguida, dimensione-o cerca de 10x para

  • 270 milhões de documentos, 80 TB de dados
  • adicione 3 milhões de documentos / dia

Este é um caso de uso estranho, em que as consultas estariam em milhares / dia, mas os tempos de resposta precisam permanecer baixos o suficiente para uma boa experiência com uma webapp Ajaxy.

    
por James Socol 04.08.2011 / 18:03

1 resposta

11

Existem muitos fatores que podem entrar em jogo, então não acho que haja muitas diretrizes gerais.

Você deve realizar uma avaliação de escala menor, talvez com 1/5 do conjunto de dados inicial para ver como as coisas se comportam quando você lança a indexação esperada e a carga de pesquisa na configuração. Isso garantirá que você saiba quanto espaço seus dados realmente consumirão no mecanismo de pesquisa. Para elasticsearch, depende se você está armazenando o json de origem e como os campos são analisados e se eles são armazenados.

O EC2 pode ser uma maneira razoável de avaliar a elasticsearch sem um grande gasto em massa.

Para software baseado em cluster, como o elasticsearch, existem compensações entre manter o cluster menor ou maior. Um cluster grande é bom porque quando você perde um servidor, menos dados precisam ser realocados. Um cluster menor consome menos energia e é mais fácil de manter.

Executamos um cluster com 35 milhões de documentos com tamanho total do índice em torno de 300 GB x 2, já que todos os índices são replicados. Para suportar isso e um grande número de buscas, temos 4 nós, cada um com 24 núcleos, 48GB de RAM e 1TB de armazenamento com 10K discos em raid10. Recentemente, aumentamos o tamanho do disco para garantir que tivéssemos mais espaço para a cabeça.

Para o seu caso, eu recomendo mais RAM e mais disco. Você provavelmente pode economizar dinheiro em CPUs com esse volume de pesquisa.

O baixo volume de pesquisas realmente prejudica o desempenho, já que os caches (internos ao s / w usado e ao disco do SO) não serão bem aquecidos.

Espero que isso ajude, Paul

    
por 08.08.2011 / 07:34