Índice não usado com `= any ()`, mas usado com `in`

A tabela tpossui dois índices:

create table t (a int, b int);
create type int_pair as (a int, b int);
create index t_row_idx on t (((a,b)::int_pair));
create index t_a_b_idx on t (a,b);

insert into t (a,b)
select i, i
from generate_series(1, 100000) g(i)
;

Nenhum índice é usado com o anyoperador:

explain analyze
select *
from t
where (a,b) = any(array[(1,1),(1,2)])
;
                                            QUERY PLAN                                             
---------------------------------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..1693.00 rows=1000 width=8) (actual time=0.042..126.789 rows=1 loops=1)
   Filter: (ROW(a, b) = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
   Rows Removed by Filter: 99999
 Planning time: 0.122 ms
 Execution time: 126.836 ms

Mas um deles é usado com o inoperador:

explain analyze
select *
from t
where (a,b) in ((1,1),(1,2))
;
                                                    QUERY PLAN                                                    
------------------------------------------------------------------------------------------------------------------
 Index Only Scan using t_a_b_idx on t  (cost=0.29..8.32 rows=1 width=8) (actual time=0.028..0.029 rows=1 loops=1)
   Index Cond: (a = 1)
   Filter: ((b = 1) OR (b = 2))
   Heap Fetches: 1
 Planning time: 0.161 ms
 Execution time: 0.066 ms

Ele usa o índice do registro se o registro for convertido para o tipo correto:

explain analyze
select *
from t
where (a,b)::int_pair = any(array[row(1,1),row(1,2)])
;
                                                  QUERY PLAN                                                  
--------------------------------------------------------------------------------------------------------------
 Index Scan using t_row_idx on t  (cost=0.42..12.87 rows=2 width=8) (actual time=0.106..0.126 rows=1 loops=1)
   Index Cond: (ROW(a, b)::int_pair = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
 Planning time: 0.208 ms
 Execution time: 0.203 ms

Por que o planejador não usa o índice sem registro para o anyoperador, como o usa para o inoperador?

postgresql index optimization postgresql-9.4 execution-plan Clodoaldo
fonte

Esta questão interessante surgiu a partir de uma discussão relacionada no SO: stackoverflow.com/a/34601242/939860

Erwin Brandstetter

Internamente, existem duas formas separadas de IN, bem como para a ANYconstrução.

Um de cada um, tomando um conjunto , é equivalente ao outro e expr IN (<set>)também leva ao mesmo plano de consulta expr = ANY(<set>)que pode usar um índice simples. Detalhes:

Operador IN vs QUALQUER no PostgreSQL

Conseqüentemente, as duas consultas a seguir são equivalentes e ambas podem usar o índice simples t_a_b_idx(que também pode ser a solução se você estiver tentando fazer com que sua consulta use o índice):

EXPLAIN ANALYZE
SELECT *
FROM t
WHERE (a,b) = ANY(VALUES (1,1),(1,2));

Ou:

...
WHERE (a,b) IN (VALUES (1,1),(1,2));

Idêntico para ambos:

                                                        QUERY PLAN
--------------------------------------------------------------------------------------------------------------------------
 Nested Loop  (cost=0.33..16.71 rows=1 width=8) (actual time=0.101..0.101 rows=0 loops=1)
   ->  Unique  (cost=0.04..0.05 rows=2 width=8) (actual time=0.068..0.070 rows=2 loops=1)
         ->  Sort  (cost=0.04..0.04 rows=2 width=8) (actual time=0.067..0.068 rows=2 loops=1)
               Sort Key: "*VALUES*".column1, "*VALUES*".column2
               Sort Method: quicksort  Memory: 25kB
               ->  Values Scan on "*VALUES*"  (cost=0.00..0.03 rows=2 width=8) (actual time=0.005..0.005 rows=2 loops=1)
   ->  Index Only Scan using t_plain_idx on t  (cost=0.29..8.32 rows=1 width=8) (actual time=0.009..0.009 rows=0 loops=2)
         Index Cond: ((a = "*VALUES*".column1) AND (b = "*VALUES*".column2))
         Heap Fetches: 0
 Planning time: 4.080 ms
 Execution time: 0.202 ms

No entanto , isso não pode ser facilmente transmitido para uma função, pois não existem "variáveis de tabela" no Postgres. O que leva ao problema que iniciou este tópico:

Passar vários conjuntos ou matrizes de valores para uma função

Existem várias soluções alternativas para esse problema. Uma sendo a resposta alternativa que adicionei lá. Alguns outros:

A segunda forma de cada um é diferente: ANYpega uma matriz real , enquanto INpega uma lista de valores separados por vírgula .

Isso tem consequências diferentes para digitar a entrada. Como podemos ver na EXPLAINsaída da pergunta, este formulário:

WHERE (a,b) = ANY(ARRAY[(1,1),(1,2)]);

é visto como uma abreviação para:

ROW(a, b) = ANY (ARRAY[ROW(1, 1), ROW(1, 2)])

E os valores reais de ROW são comparados. Atualmente, o Postgres não é inteligente o suficiente para ver se o índice no tipo composto t_row_idxé aplicável. Nem percebe que o índice simples também t_a_b_idxdeve ser aplicável.

Um elenco explícito ajuda a superar essa falta de inteligência:

WHERE (a,b)::int_pair = ANY(ARRAY[(1,1),(1,2)]::int_pair[]);

A transmissão do operando certo ( ::int_pair[]) é opcional (embora seja preferível para desempenho e para evitar ambiguidades). Depois que o operando esquerdo tiver um tipo conhecido, o operando direito será coagido de "registro anônimo" para um tipo correspondente. Somente então, o operador é definido sem ambiguidade. O Postgres escolhe os índices aplicáveis com base no operador e no operando esquerdo . Para muitos operadores que definem a COMMUTATOR, o planejador de consultas pode inverter operandos para trazer a expressão indexada para a esquerda. Mas isso não é possível com a ANYconstrução.

Palavras-chave:

Existe uma maneira de indexar utilmente uma coluna de texto contendo padrões regex?
```
WHERE (a,b) IN ((1,1),(1,2));
```

.. os valores são tomados como elementos e o Postgres é capaz de comparar valores inteiros individuais, como podemos ver na EXPLAINsaída mais uma vez:

Filter: ((b = 1) OR (b = 2))

Portanto, o Postgres considera que o índice simples t_a_b_idxpode ser usado.

Consequentemente, haveria outra solução para o caso específico no exemplo : como o tipo composto personalizado int_pairno exemplo é equivalente ao tipo de linha da tprópria tabela , poderíamos simplificar:

CREATE INDEX t_row_idx2 ON t ((t));

Então essa consulta usaria o índice sem mais nenhuma conversão explícita:

EXPLAIN ANALYZE
SELECT *
FROM   t
WHERE  t = ANY(ARRAY[(1,1),(1,2)]);

                                                      QUERY PLAN
-----------------------------------------------------------------------------------------------------------------------
 Bitmap Heap Scan on t  (cost=40.59..496.08 rows=1000 width=8) (actual time=0.19
1..0.191 rows=0 loops=1)
   Recheck Cond: (t.* = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
   ->  Bitmap Index Scan on t_row_idx2  (cost=0.00..40.34 rows=1000 width=0) (actual time=0.188..0.188 rows=0 loops=1)
         Index Cond: (t.* = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
 Planning time: 2.575 ms
 Execution time: 0.267 ms

Mas casos de uso típicos não poderão utilizar o tipo implicitamente existente da linha da tabela.

Erwin Brandstetter
fonte

Uma pequena adição: embora uma IN(...)lista curta possa ser traduzida (pelo planejador) em uma ... OR ...expressão no caso acima, geralmente é apenas traduzida para ANY('{...}'), ou seja, usando uma matriz. Portanto, na maioria dos casos, INcom uma lista de valores e ANYuma matriz são a mesma coisa.

Dezso

@dezso: Para os casos mais simples, sim. A pergunta demonstra um caso em IN(...) que não pode ser traduzido = ANY('{...}').

Erwin Brandstetter

Índice não usado com `= any ()`, mas usado com `in`

Respostas: