Atualizar uma linha com o mesmo valor realmente atualiza a linha?

28

Eu tenho uma pergunta relacionada ao desempenho. Digamos que eu tenho um usuário com o primeiro nome Michael. Faça a seguinte consulta:

UPDATE users
SET first_name = 'Michael'
WHERE users.id = 123

A consulta realmente executará a atualização, mesmo que esteja sendo atualizada com o mesmo valor? Se sim, como evito que isso aconteça?

OneSneakyMofo
fonte
11
Por que você executaria uma instrução e simultaneamente esperaria que ela não fosse executada?
Max15:
O ORM do @MaxVernon Ruby on Rails não atualiza o registro, então fiquei curioso se o PostgreSQL fez a mesma coisa.
OneSneakyMofo 15/10/2015
11
Eu sugeriria que, se o Ruby on Rails estiver fazendo isso, provavelmente ele fará uma seleção primeiro para ver se a linha precisa de uma atualização.
Max Vernon
x postado no SO: stackoverflow.com/q/33156712/939860
Erwin Brandstetter

Respostas:

35

Devido ao modelo MVCC do Postgres, e de acordo com as regras do SQL, um UPDATEgrava uma nova versão de linha para cada linha que não é excluída na WHEREcláusula.

Isto faz ter um impacto mais ou menos substancial no desempenho, direta e indiretamente. "Atualizações vazias" têm o mesmo custo por linha que qualquer outra atualização. Eles acionam gatilhos (se presentes) como qualquer outra atualização, precisam ser registrados no WAL e produzem linhas mortas inchando a tabela e causando mais trabalho para VACUUMmais tarde, como qualquer outra atualização.

As entradas de índices e as colunas TOASTed nas quais nenhuma coluna envolvida é alterada podem permanecer iguais, mas isso é verdade para qualquer linha atualizada. Relacionado:

É quase sempre uma boa ideia excluir essas atualizações vazias (quando houver uma chance real de que isso possa acontecer). Você não forneceu uma definição de tabela em sua pergunta (o que é sempre uma boa ideia). Temos que assumir que first_namepode ser NULL (o que não seria surpreendente para um "primeiro nome"), portanto, a consulta deve usar uma comparação segura com NULL :

UPDATE users
SET    first_name = 'Michael'
WHERE  id = 123
AND   first_name IS DISTINCT FROM 'Michael';

Se first_name IS NULLantes da atualização, um teste com apenas first_name <> 'Michael'seria avaliado como NULL e, como tal, excluiria a linha da atualização. Erro sorrateiro. Se a coluna estiver definidaNOT NULL , use a verificação simples de igualdade, porque isso é um pouco mais barato.

Palavras-chave:

Erwin Brandstetter
fonte
11
Indexes entries and TOASTed columns where none of the involved columns are changed can stay the sameMas eles não precisariam ser atualizados para apontar para o novo local da linha?
dvtan
11
@dtgq: Não com atualizações HOT, onde o índice pode continuar apontando para o local antigo, e as buscas de heap precisam percorrer a cadeia HOT para obter a tupla ao vivo. Eu adicionei links para mais explicações acima.
Erwin Brandstetter
11
E o MVCC pede uma atualização noop para escrever uma nova tupla?
jberryman
@berryberry: Não tenho certeza que eu entendo. De qualquer forma, faça sua pergunta como nova pergunta . Você sempre pode vincular este a um contexto. E você pode deixar um comentário aqui para fazer o link de volta (e chame minha atenção).
Erwin Brandstetter
2
@berryberry: Eu realmente não sei as razões pelas quais o projeto foi desse jeito. Isso foi estabelecido há muito tempo. Mas suponho que seria desnecessariamente caro verificar a igualdade de todas as linhas e ter um caminho de código separado para as linhas inalteradas. A manipulação da transação-IDs seria mais complicado - embalagem especial para rollback, manuseio de snapshot, gerenciamento de bloqueio, WAL, um que não ...
Erwin Brandstetter
4

ORMs como Ruby on Rail oferecem execução adiada que marca um registro como alterado (ou não) e, em seguida, quando necessário ou chamado, em seguida, envia a alteração para o banco de dados.

O PostgreSQL é um banco de dados e não um ORM. O desempenho seria reduzido se levasse algum tempo para verificar se um novo valor era igual ao valor atualizado na sua consulta.

Portanto, ele atualizará o valor, independentemente de ser o mesmo que o novo valor ou não.

Se você deseja evitar isso, use um código como Max Vernon sugerido em sua resposta.

Thronk
fonte
2

Você pode simplesmente adicionar à wherecláusula:

UPDATE users
SET first_name = 'Michael'
WHERE users.id = 123
    AND (first_name <> 'Michael' OR first_name IS NULL);

Se first_namefor definido como NOT NULL, a OR first_name IS NULLpeça poderá ser removida.

A condição:

(first_name <> 'Michael' OR first_name IS NULL)

também pode ser escrito de forma mais elegante como (na resposta de Erwin):

first_name IS DISTINCT FROM 'Michael'
Max Vernon
fonte
Não saber se a coluna pode ser NULL, isso pode introduzir um bug furtivo.
Erwin Brandstetter
11
@ErwinBrandstetter Eu estava atualizando a resposta - então eu vi o comentário e sua resposta!
ypercubeᵀᴹ
obrigado pela edição, @ypercube - e para o comentário sobre NULL@erwin
Max Vernon
1

Do ponto de vista do banco de dados

A resposta para sua pergunta é sim. A atualização ocorrerá. O banco de dados não verifica o valor anterior, apenas define o novo valor.

Como isso acontece na memória (e só será gravado nos arquivos de dados após a emissão de uma confirmação), o desempenho não seria um problema.

De uma perspectiva ORM

Normalmente você terá um objeto representando uma única linha do banco de dados (pode ser muito mais complexo que isso, mas vamos simplificar). Esse objeto é gerenciado na memória (no nível do servidor de aplicativos) e apenas a versão confirmada mais recente desse objeto chegará ao banco de dados em um determinado momento.

Isso pode explicar o comportamento diferente.

Agora, não vamos comparar um navio de carga com uma impressora 3D. O fato de você poder enviar impressoras 3D usando navios de carga não significa que possa haver qualquer tipo de comparação entre elas.

Apreciar!

Espero que isso tenha esclarecido alguns conceitos.

Silvarion
fonte
4
Desempenho é um problema. Toda atualização deve ser gravada no disco (o log e a tabela).
ypercubeᵀᴹ
Depende do RDBMS real que você usa. Mas a maioria deles não confirma todas as atualizações, mas apenas o último bloco confirmado que eles têm na memória. Você nunca lê ou escreve uma única linha em um banco de dados. Você lê / grava blocos e os mantém na memória até precisar liberá-los para colocar um novo bloco no mesmo local. Enquanto estiver na memória, nem todas as alterações em uma linha serão gravadas no disco, mas apenas o conteúdo do bloco quando o processo "gravador de banco de dados" for sinalizado para despejar esse bloco de memória em um arquivo de dados. Portanto, não ... Não é um problema, a menos que seu aplicativo retenha o bloqueio por muito tempo.
Silvarion
11
a pergunta é sobre o Postgres, não sobre nenhum DBMS arbitrário. E, embora nem todas as atualizações tenham que ser gravadas uma a uma, todas as gravações no banco de dados devem ser gravadas no log. Se uma alteração não for gravada no armazenamento persistente, como o DBMS sobreviverá a uma falha no sistema?
ypercubeᵀᴹ
Sim, ele grava nos logs, da memória e também durante os pontos de verificação. A menos que você tenha um número enorme de usuários simultâneos, isso não deve ser um problema. Os logs também são gravados em lotes. Acho que estamos falando de servidores. Se você está falando sobre um banco de dados do Postgres em um laptop com um HD de 5400RPM, sim ... sempre terá problemas de desempenho. Então, a resposta final seria a primeira ... Depende de muitas coisas.
Silvarion