T-SQL - Qual é a maneira mais eficiente de percorrer uma tabela até que uma condição seja atendida

10

Em conseguiu uma tarefa de programação na área de T-SQL.

Tarefa:

  1. As pessoas querem entrar no elevador, cada pessoa tem um certo peso.
  2. A ordem das pessoas que estão na fila é determinada pelo giro da coluna.
  3. O elevador tem uma capacidade máxima de <= 1000 lbs.
  4. Retorne o nome da última pessoa que pode entrar no elevador antes que fique muito pesado!
  5. O tipo de retorno deve ser tabela

insira a descrição da imagem aqui

Pergunta: Qual é a maneira mais eficiente de resolver esse problema? Se o loop estiver correto, há espaço para melhorias?

Eu usei um loop e # tabelas temporárias, aqui minha solução:

set rowcount 0
-- THE SOURCE TABLE "LINE" HAS THE SAME SCHEMA AS #RESULT AND #TEMP
use Northwind
go

declare @sum int
declare @curr int
set @sum = 0
declare @id int

IF OBJECT_ID('tempdb..#temp','u') IS NOT NULL
    DROP TABLE #temp

IF OBJECT_ID('tempdb..#result','u') IS NOT NULL
    DROP TABLE #result

create table #result( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

create table #temp( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

INSERT into #temp SELECT * FROM line order by turn

 WHILE EXISTS (SELECT 1 FROM #temp)
  BEGIN
   -- Get the top record
   SELECT TOP 1 @curr =  r.weight  FROM  #temp r order by turn  
   SELECT TOP 1 @id =  r.id  FROM  #temp r order by turn

    --print @curr
    print @sum

    IF(@sum + @curr <= 1000)
    BEGIN
    print 'entering........ again'
    --print @curr
      set @sum = @sum + @curr
      --print @sum
      INSERT INTO #result SELECT * FROM  #temp where [id] = @id  --id, [name], turn
      DELETE FROM #temp WHERE id = @id
    END
     ELSE
    BEGIN    
    print 'breaaaking.-----'
      BREAK
    END 
  END

   SELECT TOP 1 [name] FROM #result r order by r.turn desc 

Aqui, o script Create para a tabela que usei Northwind para testar:

USE [Northwind]
GO

/****** Object:  Table [dbo].[line]    Script Date: 28.05.2018 21:56:18 ******/
SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[line](
    [id] [int] NOT NULL,
    [name] [varchar](255) NOT NULL,
    [weight] [int] NOT NULL,
    [turn] [int] NOT NULL,
PRIMARY KEY CLUSTERED 
(
    [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY],
UNIQUE NONCLUSTERED 
(
    [turn] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

GO

ALTER TABLE [dbo].[line]  WITH CHECK ADD CHECK  (([weight]>(0)))
GO

INSERT INTO [dbo].[line]
    ([id], [name], [weight], [turn])
VALUES
    (5, 'gary', 800, 1),
    (3, 'jo', 350, 2),
    (6, 'thomas', 400, 3),
    (2, 'will', 200, 4),
    (4, 'mark', 175, 5),
    (1, 'james', 100, 6)
;
Legendas
fonte

Respostas:

16

Você deve tentar evitar loops em geral. Eles são normalmente menos eficientes que as soluções baseadas em conjuntos e menos legíveis.

O abaixo deve ser bastante eficiente.

Ainda mais se as colunas de nome e peso pudessem ser INCLUDE-d no índice para evitar as principais pesquisas.

Ele pode varrer o índice exclusivo em ordem turne calcular o total de execução da Weightcoluna - depois use LEADcom os mesmos critérios de pedido para ver qual será o total de execução na próxima linha.

Assim que encontrar a primeira linha em que isso excede 1000 ou está NULL(indicando que não há próxima linha), poderá interromper a verificação.

WITH T1
     AS (SELECT *,
                SUM(Weight) OVER (ORDER BY turn ROWS UNBOUNDED PRECEDING) AS cume_weight
         FROM   [dbo].[line]),
     T2
     AS (SELECT LEAD(cume_weight) OVER (ORDER BY turn) AS next_cume_weight,
                *
         FROM   T1)
SELECT TOP 1 name
FROM   T2
WHERE  next_cume_weight > 1000
        OR next_cume_weight IS NULL
ORDER  BY turn 

Plano de execução

insira a descrição da imagem aqui

Na prática, parece ler algumas linhas à frente de onde é estritamente necessário - parece que cada par agregado de spool / fluxo de janela faz com que duas linhas adicionais sejam lidas.

Para os dados de amostra na pergunta, idealmente, seria necessário ler apenas duas linhas da varredura de índice, mas na realidade lê 6, mas esse não é um problema de eficiência significativo e não é degradado à medida que mais linhas são adicionadas à tabela (como em esta demonstração )

Para os interessados nesta questão uma imagem com a saída linhas por cada operador (como mostrado pelo query_trace_column_valuesevento estendido) está abaixo, as linhas são mostradas em row_idordem (a partir de 47para a primeira linha lido pelo índice de digitalização e terminando no 113para o TOP)

Clique na imagem abaixo para aumentá-la ou veja a versão animada para facilitar o acompanhamento do fluxo .

Pausar a animação no ponto em que o fluxo do lado direito agregou sua primeira linha (para gary - turn = 1). Parece aparente que estava esperando para receber sua primeira linha com um WindowCount diferente (para Jo-turn = 2). E o spool da janela não libera a primeira linha "Jo" até que ela leia a próxima linha com uma diferente turn(para thomas - turn = 3)

Portanto, o spool de janela e o fluxo agregado fazem com que uma linha adicional seja lida e há quatro delas no plano - daí quatro linhas adicionais.

insira a descrição da imagem aqui

A seguir, é apresentada uma explicação das colunas mostradas acima (com base nas informações aqui )

  • NodeName: Varredura de Índice, NodeId: 15, ColumnName: coluna da tabela base de identificação coberta pelo índice
  • NodeName: Varredura de Índice, NodeId: 15, ColumnName: vira a coluna da tabela base coberta pelo índice
  • NodeName: busca de índice em cluster, NodeId: 17, ColumnName: coluna da tabela de base de peso recuperada da pesquisa
  • NodeName: busca de índice em cluster, NodeId: 17, ColumnName: coluna da tabela base de nome recuperada da pesquisa
  • NodeName: Segment, NodeId: 13, ColumnName: Segment1010 Retorna 1 no início do novo grupo ou nulo, caso contrário. Como não Partition By, SUMapenas a primeira linha recebe 1
  • NodeName: Sequence Project, NodeId: 12, ColumnName: RowNumber1009 row_number() dentro do grupo indicado pelo sinalizador Segment1010. Como todas as linhas estão no mesmo grupo, são números inteiros ascendentes de 1 a 6. Seriam usados ​​para filtrar as linhas do quadro direito em casos como esse rows between 5 preceding and 2 following. (ou mais LEADtarde)
  • NodeName: Segment, NodeId: 11, ColumnName: Segment1011 Retorna 1 no início do novo grupo ou nulo, caso contrário. Como não Partition By, SUMapenas a primeira linha recebe 1 (o mesmo que o segmento1010)
  • NodeName: Spool da janela, NodeId: 10, ColumnName: WindowCount1012 Atributo que agrupa linhas pertencentes a um quadro de janela. Este spool de janela está usando o caso "fast track" para UNBOUNDED PRECEDING. Onde emite duas linhas por linha de origem. Um com os valores cumulativos e outro com os valores detalhados. Embora não haja diferença visível nas linhas expostas por query_trace_column_values, assumo que as colunas cumulativas existem na realidade.
  • NodeName: fluxo agregado, NodeId: 9, ColumnName: Expr1004 Count(*) agrupado por WindowCount1012 de acordo com o plano, mas na verdade uma contagem em execução
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1005 SUM(weight) agrupado por WindowCount1012 de acordo com o plano, mas na verdade a soma do peso em execução (por exemplo cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Expr1002 CASE WHEN [Expr1004]=(0) THEN NULL ELSE [Expr1005] END - Não vê como COUNT(*)pode ser 0, portanto sempre estará executando sum ( cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Segment1013 Não partition byna LEADprimeira linha, obtém 1. Todos os restantes são nulos
  • NodeName: Sequence Project, NodeId: 6, ColumnName: RowNumber1006 row_number() dentro do grupo indicado pelo sinalizador Segment1013. Como todas as linhas estão no mesmo grupo, são números inteiros ascendentes de 1 a 4
  • NodeName: Segmento, NodeId: 4, ColumnName: BottomRowNumber1008 RowNumber1006 + 1, pois LEADrequer a próxima linha única
  • NodeName: Segmento, NodeId: 4, ColumnName: TopRowNumber1007 RowNumber1006 + 1, pois LEADrequer a próxima linha única
  • NodeName: Segment, NodeId: 4, ColumnName: Segment1014 Não partition byna LEADprimeira linha, obtém 1. Todos os restantes são nulos
  • NodeName: Spool da janela, NodeId: 3, ColumnName: WindowCount1015 Atributo que agrupa linhas pertencentes a um quadro de janela usando os números de linha anteriores. O quadro da janela para LEADtem no máximo 2 linhas (a atual e a próxima)
  • NodeName: fluxo agregado, NodeId: 2, ColumnName: Expr1003 LAST_VALUE([Expr1002]) para oLEAD(cume_weight)
Martin Smith
fonte
6

Assim como uma curiosidade (como a pergunta indica T-SQL), também é possível resolver esse problema com eficiência usando o SQLCLR.

A idéia é ler as linhas uma por vez turn, até que weightexceda 1000 (ou ficamos sem linhas) e, em seguida, retorne a última nameleitura.

O código fonte é:

using Microsoft.SqlServer.Server;
using System.Data;
using System.Data.SqlClient;
using System.Data.SqlTypes;

public partial class UserDefinedFunctions
{
    [SqlFunction(DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        IsDeterministic = true, IsPrecise = true)]
    [return: SqlFacet(IsFixedLength = false, IsNullable = true, MaxSize = 255)]
    public static SqlString Elevator()
    {
        const string query =
            @"SELECT L.[name], L.[weight]
            FROM dbo.line AS L
            ORDER BY L.turn;";

        using (var con = new SqlConnection("context connection = true"))
        {
            con.Open();
            using (var cmd = new SqlCommand(query, con))
            {
                var rdr = cmd.ExecuteReader(CommandBehavior.SingleResult);
                var name = SqlString.Null;
                var total = 0;

                while (rdr.Read() && (total += rdr.GetInt32(1)) <= 1000)
                {
                    name = rdr.GetSqlString(0);
                }
                return name;
            }
        }
    }
}

O assembly compilado e a função T-SQL:

CREATE ASSEMBLY Elevator AUTHORIZATION [dbo]
FROM 0x
WITH PERMISSION_SET = SAFE;
GO
CREATE FUNCTION dbo.Elevator ()
RETURNS nvarchar(255)
AS EXTERNAL NAME Elevator.UserDefinedFunctions.Elevator;

Obtendo o resultado:

SELECT dbo.Elevator();
Paul White 9
fonte
1

Ligeira variação da solução de Martin Smith

SELECT top 1 name
FROM (
    SELECT id, name, weight, turn
         , SUM(weight) OVER (ORDER BY turn) AS cumulative_weight
    FROM line                               
) as T
WHERE cumulative_weight <= 1000
ORDER BY turn DESC 

RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW é o quadro da janela padrão, então não declarei isso.

Um predicado para o peso acumulado atual é usado em vez do próximo peso cumulativo.

Eu não verifiquei nenhum plano, então não sei dizer se há alguma diferença a esse respeito.

Lennart
fonte
Entendo, estou cercado por geeks da DB :-). Eu tenho que verificar todas as palavras-chave que vocês mencionam para entender o que elas fazem. Eu só dei uma olhada Client statistics --> Total Execution Time, não a Actual execution planque provavelmente é a mais interessante aqui. A partir da Client Statisticssua solução, é um pouco mais lenta que a de Martin. Obrigado pela informação adicional. Qual método pode ser usado para medir diferenças de desempenho entre diferentes abordagens?
Legends
11
Receio que meu conhecimento sobre o servidor SQL seja muito limitado, por isso não tenho muitas informações sobre quais métricas usar. Martin tem um link de violão db <> em sua resposta, talvez você possa ver os planos lá.
Lennart 30/05
11
Também não verifiquei os planos, mas imaginaria que isso provavelmente calculará o total em execução em toda a tabela e classificará as linhas resultantes correspondentes ao WHERE. Duvido que ele use a restrição de verificação para saber que o total atual é estritamente ascendente e pode parar mais cedo. Também em SQL Server, excepto quando o agregado janela do modo em lote é usado especificando ROWS em vez de intervalo é preferível, mesmo onde não existem duplicatas como o carretel janela está na memória não disc
Martin Smith
@ MartinSmith, interessante. Na sua solução, o LEAD torna possível enviar o predicado next_cume_weight <10000 dentro do T1 e resgatar antecipadamente a verificação do índice? Eu verifiquei o plano da minha consulta e ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROWintroduzi um Sequence Project (Compute Scalar)operador. Escusado será dizer que eu não tenho idéia o que isso significa :-)
Lennart
11
O índice entrega as linhas na ordem necessária pela soma, lead e top. Assim que top recebe sua primeira linha, ele pode parar de solicitar mais linhas e a execução pode parar.
Martin Smith
0

Você pode fazer uma junção contra si mesma:

select 
    a.id, a.turn, a.game, 
    coalesce(sum(b.weight), 0) as cumulative_weight
from
    table a
left join 
    table b
on
    a.turn > b.turn
group by
    a.id, a.turn, a.game ;

Esse tipo de coisa não é muito eficiente, pois causa uma seleção por linha. Mas pelo menos é expresso como uma única declaração.

Se você não precisar fazer isso totalmente no SQL, poderá simplesmente selecionar todas as linhas e percorrê-las, adicionando à medida que avança.

Você poderia fazer o mesmo em um procedimento armazenado sem a tabela temporária também. Apenas segure a soma e o último nome da linha em uma variável.

ypercubeᵀᴹ
fonte
Desculpe, não sei como fazê-lo funcionar com a self-join. Se você puder fazer um pequeno exemplo reproduzível, adicionei a definição da tabela à minha pergunta. Meu sql está ruim .... Preciso do nome da pessoa mais próxima a <= 1000 lbs.
Legends
parece que sua atualização funciona bem, você precisará mexer um pouco com ela se quiser que ela produza exatamente a saída exata. Mas como eu digo, não é super-eficiente
OK? Eu fico nulo para a pessoa com o id 5 ...
Legends
que é estranho, eu esperaria sum () para retornar 0 para uma soma sobre linhas 0
SOMA acima de 0 linhas não é 0 (infelizmente). Você precisa usar COALESCE()ou ISNULL()função ou uma CASEexpressão para torná-lo 0.
ypercubeᵀᴹ