Recomendações para o hardware do Elastic Search [fechado]

10

Existem bons guias para o nível de hardware para dar suporte ao ElasticSearch? As recomendações para Lucene ou Solr são um bom ponto de partida? Estamos pensando em implantar uma implantação começando com

  • 27 milhões de documentos, 8 TB de dados
  • adicione 300k documentos por dia

Em seguida, dimensione isso em cerca de 10x, para

  • 270 milhões de documentos, 80 TB de dados
  • adicione 3 milhões de documentos / dia

Esse é um caso de uso estranho, em que as consultas estariam na casa dos milhares / dia, mas os tempos de resposta precisam permanecer baixos o suficiente para uma boa experiência com um aplicativo da web Ajaxy.

James Socol
fonte
@ MarkHenderson: esta é uma pergunta real (sem brinquedo) e interessante. Eu acho que sua avaliação de ser "muito localizada" é fora do objetivo.
18747 David J.
David, a questão foi fechada conforme o nosso FAQ não fazemos compras perguntas
Mark Henderson

Respostas:

11

Existem muitos fatores que podem entrar em jogo, então eu não acho que haja muitas diretrizes gerais.

Você deve realizar uma avaliação em escala menor, talvez com 1/5 do conjunto de dados inicial para ver como as coisas se comportam quando você lança a indexação esperada e a carga de pesquisa na configuração. Isso garantirá que você entenda quanto espaço seus dados realmente consumirão no mecanismo de pesquisa. Para elasticsearch, depende se você está armazenando o json de origem e como os campos são analisados ​​e se eles são armazenados.

O EC2 pode ser uma maneira razoável de avaliar a pesquisa elástica sem um grande gasto h / a.

Para software baseado em cluster, como elasticsearch, existem vantagens e desvantagens entre manter o cluster menor versus maior. Um cluster grande é bom porque, quando você perde um servidor, menos dados precisam ser realocados. Um cluster menor consome menos energia e é mais fácil de manter.

Executamos um cluster com 35 milhões de documentos com tamanho total de índice em torno de 300 GB x 2, pois todos os índices são replicados. Para suportar isso e um número muito grande de pesquisas, temos 4 nós, cada um com 24 núcleos, 48 ​​GB de RAM e 1 TB de armazenamento com 10K discos em RAID10. Recentemente, aumentamos o tamanho do disco para garantir que tivéssemos mais espaço para a cabeça.

Para o seu caso, eu recomendaria mais RAM e mais disco. Você provavelmente pode economizar dinheiro em CPUs com esse volume de pesquisa.

O baixo volume de pesquisa realmente prejudica o desempenho, pois os caches (internos ao s / w usado e ao disco do SO) não serão aquecidos.

Espero que isso ajude, Paul

Paulo
fonte
De que tipo de documentos você está falando? Histórico? Documentos reais?
Manuel Rauber