Chamadas simultâneas para a mesma função: como estão ocorrendo os deadlocks?

Minha função new_customeré chamada várias vezes por segundo (mas apenas uma vez por sessão) por um aplicativo da web. A primeira coisa que faz é bloquear a customertabela (fazer uma "inserção se não existir" - uma simples variante de uma upsert).

Meu entendimento dos documentos é que outras chamadas para new_customerdevem simplesmente enfileirar até que todas as chamadas anteriores sejam concluídas:

LOCK TABLE obtém um bloqueio no nível da tabela, aguardando, se necessário, que quaisquer bloqueios conflitantes sejam liberados.

Por que às vezes é um impasse?

definição:

create function new_customer(secret bytea) returns integer language sql 
                security definer set search_path = postgres,pg_temp as $$
  lock customer in exclusive mode;
  --
  with w as ( insert into customer(customer_secret,customer_read_secret)
              select secret,decode(md5(encode(secret, 'hex')),'hex') 
              where not exists(select * from customer where customer_secret=secret)
              returning customer_id )
  insert into collection(customer_id) select customer_id from w;
  --
  select customer_id from customer where customer_secret=secret;
$$;

erro do log:

_{2015-07-28 08:02:58 DETALHE DO BST: O processo 12380 aguarda ExclusiveLock na relação 16438 do banco de dados 12141; bloqueado pelo processo 12379.
        O processo 12379 aguarda ExclusiveLock na relação 16438 do banco de dados 12141; bloqueado pelo processo 12380.
        Processo 12380: selecione new_customer (decodifique ($ 1 :: text, 'hex'))
        Processo 12379: selecione new_customer (decodifique ($ 1 :: text, 'hex'))
2015-07-28 08:02:58 BST DICA: Consulte o log do servidor para obter detalhes da consulta.
2015-07-28 08:02:58 CONTEXTO BST: instrução "new_customer" da função SQL 1
2015-07-28 08:02:58 DECLARAÇÃO BST: selecione new_customer (decodificar ($ 1 :: texto, 'hex'))}

relação:

postgres=# select relname from pg_class where oid=16438;
┌──────────┐
│ relname  │
├──────────┤
│ customer │
└──────────┘

editar:

Consegui obter um caso de teste reproduzível simples. Para mim, isso parece um bug devido a algum tipo de condição de corrida.

esquema:

create table test( id serial primary key, val text );

create function f_test(v text) returns integer language sql security definer set search_path = postgres,pg_temp as $$
  lock test in exclusive mode;
  insert into test(val) select v where not exists(select * from test where val=v);
  select id from test where val=v;
$$;

O script bash é executado simultaneamente em duas sessões do bash:

for i in {1..1000}; do psql postgres postgres -c "select f_test('blah')"; done

log de erros (geralmente um punhado de deadlocks nas 1000 chamadas):

2015-07-28 16:46:19 BST ERROR:  deadlock detected
2015-07-28 16:46:19 BST DETAIL:  Process 9394 waits for ExclusiveLock on relation 65605 of database 12141; blocked by process 9393.
        Process 9393 waits for ExclusiveLock on relation 65605 of database 12141; blocked by process 9394.
        Process 9394: select f_test('blah')
        Process 9393: select f_test('blah')
2015-07-28 16:46:19 BST HINT:  See server log for query details.
2015-07-28 16:46:19 BST CONTEXT:  SQL function "f_test" statement 1
2015-07-28 16:46:19 BST STATEMENT:  select f_test('blah')

editar 2:

O @ypercube sugeriu uma variante com lock tablea função fora:

for i in {1..1000}; do psql postgres postgres -c "begin; lock test in exclusive mode; select f_test('blah'); end"; done

Curiosamente, isso elimina os impasses.

postgresql deadlock postgresql-9.4 Jack Douglas
fonte

Na mesma transação, antes de entrar nessa função, é customerusado de uma maneira que agarra um bloqueio mais fraco? Então pode ser um problema de atualização do bloqueio.

Daniel Vérité

Eu não posso explicar isso. Daniel pode ter razão. Pode valer a pena aumentar isso no pgsql-general. De qualquer forma, você está ciente da implementação do UPSERT no próximo Postgres 9.5? Depesz dando uma olhada.

Erwin Brandstetter

Quero dizer, dentro da mesma transação, não apenas da mesma sessão (como os bloqueios são liberados no final do TX). A resposta de @alexk é o que eu estava pensando, mas se o tx começa e termina com a função, isso não pode explicar o impasse.

Daniel Vérité

@Erwin você vai, sem dúvida, estar interessado na resposta que eu tenho de publicar em pgsql-bugs :)

Jack Douglas

Muito interessante mesmo. Faz sentido que isso funcione no plpgsql também, pois me lembro de casos semelhantes do plpgsql funcionando conforme o esperado.

Erwin Brandstetter

Respostas:

Eu postei isso para pgsql-bugs e a resposta há de Tom Lane, indica esta é uma questão de escalonamento de bloqueio, disfarçado pela mecânica das funções da linguagem SQL forma como são processados. Essencialmente, o bloqueio gerado pelo inserté obtido antes do bloqueio exclusivo na tabela :

Acredito que o problema disso é que uma função SQL fará análise (e talvez também planeje; não tenha vontade de verificar o código agora) para todo o corpo da função de uma só vez. Isso significa que, devido ao comando INSERT, você adquire RowExclusiveLock na tabela "test" durante a análise do corpo da função, antes que o comando LOCK seja executado. Portanto, o LOCK representa uma tentativa de escalação de bloqueios, e são esperados impasses.

Essa técnica de codificação seria segura no plpgsql, mas não na função da linguagem SQL.

Houve discussões sobre a reimplementação de funções da linguagem SQL para que a análise ocorra uma instrução de cada vez, mas não prenda a respiração sobre algo acontecendo nessa direção; não parece ser uma preocupação de alta prioridade para ninguém.

Atenciosamente, Tom Lane

Isso também explica por que o bloqueio da tabela fora da função em um bloco plpgsql de quebra automática (como sugerido por @ypercube) impede os bloqueios.

Jack Douglas
fonte

Ponto fino: o ypercube realmente testou o bloqueio no SQL simples em uma transação explícita fora de uma função, que não é a mesma que um bloco plpgsql .

Erwin Brandstetter

Muito bem, meu mal. Acho que estava me confundindo com outra coisa que tentamos (que não impediu o impasse).

31415 Jack Douglas

Supondo que você execute outras instruções antes de chamar new_customer e que adquiram um bloqueio que conflite com EXCLUSIVE(basicamente, qualquer modificação de dados na tabela do cliente), a explicação é muito simples.

Pode-se reproduzir o problema com um exemplo simples (nem mesmo incluindo uma função):

CREATE TABLE test(id INTEGER);

1ª sessão:

BEGIN;

INSERT INTO test VALUES(1);

2ª sessão

BEGIN;
INSERT INTO test VALUES(1);
LOCK TABLE test IN EXCLUSIVE MODE;

1ª sessão

LOCK TABLE test IN EXCLUSIVE MODE;

Quando a primeira sessão faz a inserção, ela adquire o ROW EXCLUSIVEbloqueio em uma tabela. Enquanto isso, a sessão 2 tenta também obtém o ROW EXCLUSIVEbloqueio e tenta adquiri-lo EXCLUSIVE. Nesse momento, ele deve aguardar a 1ª sessão, pois o EXCLUSIVEbloqueio entra em conflito com ROW EXCLUSIVE. Por fim, a 1ª sessão pula os tubarões e tenta obter um EXCLUSIVEbloqueio, mas, como os bloqueios são adquiridos em ordem, eles ficam na fila após a 2ª sessão. Isso, por sua vez, aguarda o primeiro, produzindo um impasse:

DETAIL:  Process 28514 waits for ExclusiveLock on relation 58331454 of database 44697822; blocked by process 28084.
Process 28084 waits for ExclusiveLock on relation 58331454 of database 44697822; blocked by process 28514

A solução para esse problema é adquirir bloqueios o mais cedo possível, geralmente como primeira coisa em uma transação. Por outro lado, a carga de trabalho do PostgreSQL só precisa de bloqueios em alguns casos muito raros, então sugiro repensar a maneira como você faz o upsert (dê uma olhada neste artigo http://www.depesz.com/2012/06/10 / por que é tão complicado demais / ).

alexk
fonte

Isso tudo é interessante, mas a mensagem nos logs do banco de dados seria algo como:

Process 28514 : select new_customer(decode($1::text, 'hex')); 	Process 28084 : BEGIN; 	INSERT INTO test VALUES(1); 	select new_customer(decode($1::text, 'hex'))

Enquanto Jack apenas obtinha:

Process 12380: select new_customer(decode($1::text, 'hex'))         Process 12379: select new_customer(decode($1::text, 'hex'))

- indicando que a chamada de função é o primeiro comando em ambas as transações (a menos que esteja faltando alguma coisa).

Erwin Brandstetter

Obrigado, e eu concordo com o que você diz, mas isso não parece ser a causa neste caso. Isso fica mais claro no caso de teste mais mínimo que eu adicionei à pergunta (que você pode tentar).

Jack Douglas

Na verdade, você estava certo sobre a escalação de bloqueios - embora o mecanismo seja sutil .

Jack Douglas