Индекс не используется с `= any ()`, но используется с `in`

Таблица tимеет два индекса:

create table t (a int, b int);
create type int_pair as (a int, b int);
create index t_row_idx on t (((a,b)::int_pair));
create index t_a_b_idx on t (a,b);

insert into t (a,b)
select i, i
from generate_series(1, 100000) g(i)
;

Индекс не используется с anyоператором:

explain analyze
select *
from t
where (a,b) = any(array[(1,1),(1,2)])
;
                                            QUERY PLAN                                             
---------------------------------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..1693.00 rows=1000 width=8) (actual time=0.042..126.789 rows=1 loops=1)
   Filter: (ROW(a, b) = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
   Rows Removed by Filter: 99999
 Planning time: 0.122 ms
 Execution time: 126.836 ms

Но один из них используется с inоператором:

explain analyze
select *
from t
where (a,b) in ((1,1),(1,2))
;
                                                    QUERY PLAN                                                    
------------------------------------------------------------------------------------------------------------------
 Index Only Scan using t_a_b_idx on t  (cost=0.29..8.32 rows=1 width=8) (actual time=0.028..0.029 rows=1 loops=1)
   Index Cond: (a = 1)
   Filter: ((b = 1) OR (b = 2))
   Heap Fetches: 1
 Planning time: 0.161 ms
 Execution time: 0.066 ms

Он использует индекс записи, если запись приведена к правильному типу:

explain analyze
select *
from t
where (a,b)::int_pair = any(array[row(1,1),row(1,2)])
;
                                                  QUERY PLAN                                                  
--------------------------------------------------------------------------------------------------------------
 Index Scan using t_row_idx on t  (cost=0.42..12.87 rows=2 width=8) (actual time=0.106..0.126 rows=1 loops=1)
   Index Cond: (ROW(a, b)::int_pair = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
 Planning time: 0.208 ms
 Execution time: 0.203 ms

Почему планировщик не использует индекс незаписей для anyоператора, как он использует его для inоператора?

postgresql index optimization postgresql-9.4 execution-plan Clodoaldo
источник

Этот интересный вопрос возник из соответствующей дискуссии о SO: stackoverflow.com/a/34601242/939860

Эрвин Брандштеттер

Внутри есть две отдельные формы из IN, а также для ANYконструкции.

Один из них, принимая набор , эквивалентен другому и expr IN (<set>)также приводит к тому же плану запросов, в expr = ANY(<set>)котором может использоваться простой индекс. Детали:

IN против ЛЮБОГО оператора в PostgreSQL

Следовательно, следующие два запроса эквивалентны, и оба могут использовать простой индекс t_a_b_idx(который также может быть решением, если вы пытаетесь заставить свой запрос использовать индекс):

EXPLAIN ANALYZE
SELECT *
FROM t
WHERE (a,b) = ANY(VALUES (1,1),(1,2));

Или:

...
WHERE (a,b) IN (VALUES (1,1),(1,2));

Идентичны для обоих:

                                                        QUERY PLAN
--------------------------------------------------------------------------------------------------------------------------
 Nested Loop  (cost=0.33..16.71 rows=1 width=8) (actual time=0.101..0.101 rows=0 loops=1)
   ->  Unique  (cost=0.04..0.05 rows=2 width=8) (actual time=0.068..0.070 rows=2 loops=1)
         ->  Sort  (cost=0.04..0.04 rows=2 width=8) (actual time=0.067..0.068 rows=2 loops=1)
               Sort Key: "*VALUES*".column1, "*VALUES*".column2
               Sort Method: quicksort  Memory: 25kB
               ->  Values Scan on "*VALUES*"  (cost=0.00..0.03 rows=2 width=8) (actual time=0.005..0.005 rows=2 loops=1)
   ->  Index Only Scan using t_plain_idx on t  (cost=0.29..8.32 rows=1 width=8) (actual time=0.009..0.009 rows=0 loops=2)
         Index Cond: ((a = "*VALUES*".column1) AND (b = "*VALUES*".column2))
         Heap Fetches: 0
 Planning time: 4.080 ms
 Execution time: 0.202 ms

Однако это не может быть легко передано функции, так как в Postgres нет «табличных переменных». Что приводит к проблеме, с которой началась эта тема:

Передать несколько наборов или массивов значений в функцию

Существуют различные обходные пути для этой проблемы. Один из них - альтернативный ответ, который я добавил там. Некоторые другие:

Вторая форма каждого отличается: ANYпринимает фактический массив , а INпринимает список значений через запятую .

Это имеет разные последствия для ввода ввода. Как мы видим в EXPLAINвыводе вопроса, эта форма:

WHERE (a,b) = ANY(ARRAY[(1,1),(1,2)]);

рассматривается как сокращение для:

ROW(a, b) = ANY (ARRAY[ROW(1, 1), ROW(1, 2)])

И фактические значения ROW сравниваются. Postgres в настоящее время недостаточно умен, чтобы понять, что индекс для составного типа t_row_idxприменим. Также он не понимает, что простой индекс также t_a_b_idxдолжен быть применим.

Явное приведение помогает преодолеть этот недостаток умов:

WHERE (a,b)::int_pair = ANY(ARRAY[(1,1),(1,2)]::int_pair[]);

Приведение правильного операнда ( ::int_pair[]) является необязательным (хотя и предпочтительным для производительности и во избежание двусмысленности). Как только левый операнд имеет известный тип, правый операнд преобразуется из «анонимной записи» в соответствующий тип. Только тогда оператор определяется однозначно. И Postgres выбирает соответствующие индексы на основе оператора и левого операнда. Для многих операторов, которые определяют a COMMUTATOR, планировщик запросов может перевернуть операнды, чтобы перенести индексированное выражение влево. Но это невозможно с ANYконструкцией.

Связанный:

Есть ли способ полезного индексирования текстового столбца, содержащего шаблоны регулярных выражений?
```
WHERE (a,b) IN ((1,1),(1,2));
```

.. значения принимаются как элементы, и Postgres может сравнивать отдельные целочисленные значения, как мы видим в EXPLAINвыводе еще раз:

Filter: ((b = 1) OR (b = 2))

Следовательно, Postgres считает, что t_a_b_idxможно использовать простой индекс .

Следовательно, было бы другое решение для конкретного случая в примере : поскольку пользовательский составной тип int_pairв примере оказывается эквивалентным типу строки самой таблицы t, мы могли бы упростить:

CREATE INDEX t_row_idx2 ON t ((t));

Тогда этот запрос будет использовать индекс без более явного приведения:

EXPLAIN ANALYZE
SELECT *
FROM   t
WHERE  t = ANY(ARRAY[(1,1),(1,2)]);

                                                      QUERY PLAN
-----------------------------------------------------------------------------------------------------------------------
 Bitmap Heap Scan on t  (cost=40.59..496.08 rows=1000 width=8) (actual time=0.19
1..0.191 rows=0 loops=1)
   Recheck Cond: (t.* = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
   ->  Bitmap Index Scan on t_row_idx2  (cost=0.00..40.34 rows=1000 width=0) (actual time=0.188..0.188 rows=0 loops=1)
         Index Cond: (t.* = ANY (ARRAY[ROW(1, 1), ROW(1, 2)]))
 Planning time: 2.575 ms
 Execution time: 0.267 ms

Но типичные варианты использования не смогут использовать неявно существующий тип строки таблицы.

Эрвин Брандштеттер
источник

Незначительное дополнение: хотя короткий IN(...)список может быть преобразован (планировщиком) в ... OR ...выражение в вышеприведенном случае, он обычно просто переводится ANY('{...}'), то есть с использованием массива. Итак, в большинстве случаев INсо списком значений и ANYс массивом это одно и то же.

Дезсо

@dezso: для большинства простых случаев да. Вопрос демонстрирует случай, когда IN(...) нельзя перевести на = ANY('{...}').

Эрвин Брандштеттер

Индекс не используется с `= any ()`, но используется с `in`

Ответы: