Otimizando consultas de banco de dados grandes (mais de 25 milhões de linhas, usando max () e GROUP BY)


Estou usando o Postgres 9.3.5 e tenho uma tabela grande no banco de dados, atualmente possui mais de 25 milhões de linhas e tende a ficar ainda maior rapidamente. Estou tentando selecionar linhas específicas (todas as unit_ids com apenas as últimas unit_timestamppara cada uma delas) com uma consulta simples como:

SELECT unit_id, max(unit_timestamp) AS latest_timestamp FROM all_units GROUP BY unit_id;

Sem qualquer índice, essa consulta leva cerca de 35 segundos para ser executada. Com um índice definido ( CREATE INDEX partial_idx ON all_units (unit_id, unit_timestamp DESC);), o tempo de consulta é reduzido para cerca de (apenas) 19 segundos.

Gostaria de saber se será possível executar minha consulta em menos tempo (como apenas alguns segundos) e, em caso afirmativo, que etapas devo seguir para otimizar ainda mais?

Meu despejo de estrutura de tabela é assim:

CREATE TABLE "all_units" (
"unit_id" int4 NOT NULL,
"unit_timestamp" timestamp(6) NOT NULL,
"lon" float4,
"lat" float4,
"speed" float4,
"status" varchar(255) COLLATE "default"
ALTER TABLE "all_units" ADD PRIMARY KEY ("unit_id", "unit_timestamp");


HashAggregate  (cost=663998.38..664069.73 rows=7135 width=12) (actual time=84715.050..84732.021 rows=11094 loops=1)
  Buffers: shared hit=192 read=286819
  ->  Seq Scan on ais_sorted  (cost=0.00..538335.92 rows=25132492 width=12) (actual time=0.608..41264.196 rows=25132492 loops=1)
        Buffers: shared hit=192 read=286819
Total runtime: 84746.501 ms

e minhas configurações de psql no servidor ficam assim:

Você realmente precisa de ALL unit_ids? Porque uma cláusula WHERE ajudaria.
Infelizmente, preciso de TODAS e, para piorar, agora recebo "apenas" 11000+ unidades em troca, mas no futuro acredito que haverá de 5 a 10 vezes mais.
Tente SELECT DISTINCT ON (unit_id),unit_timestamp FROM t ORDER BY unit_timestamp DESCUm índice separado em unit_timestamp ajudaria.
a visualização materializada é uma opção?
Hum, não sabia nada sobre visões materializadas. Vou tentar criar um e ver se isso seria útil!




Sua consulta é forçada a verificar a tabela inteira (ou o índice inteiro). Cada linha pode ser outra unidade distinta. A única maneira de reduzir substancialmente o processo seria uma tabela separada com todas as unidades disponíveis - o que ajudaria desde que haja substancialmente menos unidades do que as entradas all_units.
Como você possui ~ 11k unidades (adicionadas no comentário) para 25 milhões de entradas, isso definitivamente deve ajudar.

Dependendo das frequências de valores, existem algumas técnicas de consulta para obter seu resultado consideravelmente mais rápido:

  • CTE recursiva
  • subconsulta correlacionada

Detalhes nesta resposta relacionada ao SO:

Necessitando apenas do índice implícito da chave primária em (unit_id, unit_timestamp) , essa consulta deve executar o truque, usando um implícito JOIN LATERAL:

SELECT u.unit_id, a.max_ts
FROM unit u
  , (SELECT unit_timestamp AS max_ts
     FROM   all_units
     WHERE  unit_id = u.unit_id
     ORDER  BY unit_timestamp DESC
     LIMIT  1
     ) a;

Exclui unidades sem entrada em all_units , como sua consulta original.
Ou uma subconsulta pouco correlacionada (provavelmente ainda mais rápida):

SELECT u.unit_id
    , (SELECT unit_timestamp
       FROM   all_units
       WHERE  unit_id = u.unit_id
       ORDER  BY unit_timestamp DESC
       LIMIT  1) AS max_ts
FROM unit u;

Inclui unidades sem entrada all_units.

A eficiência depende do número de entradas por unidade . Quanto mais entradas, maior o potencial para uma dessas consultas.

Em um teste local rápido com tabelas semelhantes (500 "unidades", 1 milhão de linhas na tabela grande), a consulta com subconsultas correlacionadas foi ~ 500x mais rápida que a original. Varreduras somente de índice no índice PK da tabela grande vs. varredura sequencial na sua consulta original.

Desde a sua mesa tends to get even larger rapidly, um visualização materializada provavelmente não é uma opção.

Também existe DISTINCT ONoutra técnica de consulta possível, mas dificilmente será mais rápida que a consulta original, portanto, não a resposta que você está procurando. Detalhes aqui:


O seu partial_idx:

CREATE INDEX partial_idx ON all_units (unit_id, unit_timestamp DESC);

de fato, não é um índice parcial e também redundante. O Postgres pode digitalizar os índices para trás praticamente na mesma velocidade, o PK serve bem. Solta esse índice adicional.

Layout da tabela

Alguns pontos para sua definição de tabela.

CREATE TABLE all_units (
unit_timestamp timestamp,
unit_id int4,
lon     float4,
lat     float4,
speed   float4,
status  varchar(255),   -- might be improved.
PRIMARY KEY (unit_id, unit_timestamp)
  • timestamp(6)não faz muito sentido, é efetivamente o mesmo que apenas timestamp, que já salva um máximo de 6 dígitos fracionários.

  • Troquei as posições das duas primeiras colunas para economizar 4 bytes de preenchimento, o que equivale a ~ 100 MB para linhas de 25 milhões (o resultado exato depende status). Tabelas menores geralmente são mais rápidas para tudo.

  • Se statusnão houver texto livre, mas algum tipo de nota padronizada, você poderá substituí-lo por algo muito mais barato. Mais sobre o varchar(255)Postgres .

Configuração do servidor

Você precisa configurar seu servidor. A maioria das suas configurações parece ser padrão conservador. 1 MB shared_buffersou work_memparece estar muito baixo para uma instalação com milhões de linhas. E random_pare_cost = 4é alto demais para qualquer sistema moderno com bastante RAM. Comece com o manual e o Wiki do Postgres:

Erwin Brandstetter
Para completar, você deve adicionar o DISTINCT ONmthod na lista de técnicas de consulta para este problema (é claro que se OP quer mostrar todas as linhas como ele alega, e não apenas as 2 colunas como os shows de código)
@ ypercube: Para completar, sim. Mas dificilmente será mais rápido. Não é a resposta que o OP está procurando.
Erwin Brandstetter
Você poderia explicar como uma CTE recursiva é vai ser mais rápido (ou mesmo: como ele iria resolver o problema em primeiro lugar - Eu nunca pensei sobre CTEs recursiva para um problema "max")
@Mihai: não, ele só tem um índice de bitmap de varredura (que é que gera o índice bitmap "on the fly")
@ErwinBrandstetter ALRIGHT! Antes de mais, muito obrigado por esta resposta elaborada, foi extremamente útil, não posso explicar quanto! :) Segundo, sua consulta (a segunda) é INCRÍVEL! O tempo de consulta agora é de cerca de 0,2 segundos !!! :) Tentei brincar com a primeira consulta também, mas não consegui resolver o erro que recebi: invalid reference to FROM-clause entry for table "u"nesta WHEREcláusula na consulta interna. Desculpe, mas eu não sou tão bom com bancos de dados, então não oprimi minha cabeça com isso, pois a segunda consulta já ajudou bastante.