Consulta para determinar as datas de início e término com base na sobreposição de horário

8

Dados os seguintes dados:

id      |   user_id |   started             |   closed              |   dead
-------------------------------------------------------------------------------------------
7714    |   238846  |   2015-01-27 15:14:50 |   2015-02-02 14:14:13 |   NULL
7882    |   238846  |   2015-01-28 13:25:58 |   NULL                |   2015-05-15 12:16:07
13190   |   259140  |   2015-03-17 10:11:44 |   NULL                |   2015-03-18 07:31:57
13192   |   259140  |   2015-03-17 10:12:17 |   NULL                |   2015-03-18 11:46:46
13194   |   259140  |   2015-03-17 10:12:53 |   NULL                |   2015-03-18 11:46:36
14020   |   259140  |   2015-03-23 14:32:16 |   2015-03-24 15:57:32 |   NULL
17124   |   242650  |   2015-04-16 16:19:08 |   2015-04-16 16:21:06 |   NULL
19690   |   238846  |   2015-05-15 13:17:31 |   NULL                |   2015-05-27 13:56:43
20038   |   242650  |   2015-05-19 15:38:17 |   NULL                |   NULL
20040   |   242650  |   2015-05-19 15:39:58 |   NULL                |   2015-05-21 12:01:02
20302   |   242650  |   2015-05-21 13:09:06 |   NULL                |   NULL
20304   |   242650  |   2015-05-21 13:09:54 |   NULL                |   NULL
20306   |   242650  |   2015-05-21 13:10:19 |   NULL                |   NULL
20308   |   242650  |   2015-05-21 13:12:20 |   NULL                |   NULL
21202   |   238846  |   2015-05-29 16:47:29 |   NULL                |   NULL
21204   |   238846  |   2015-05-29 16:47:56 |   NULL                |   NULL
21208   |   238846  |   2015-05-29 17:05:15 |   NULL                |   NULL
21210   |   238846  |   2015-05-29 17:05:55 |   NULL                |   NULL
21918   |   242650  |   2015-06-04 17:04:29 |   NULL                |   2015-06-12 15:47:23

Preciso criar um conjunto de dados que atenda às seguintes regras:

  1. Os grupos são definidos primeiro por, user_idportanto, devemos comparar apenas registros da mesmauser_id
  2. Todos os registros iniciados pelo menos 15 dias após o início de qualquer outro registro, fechado ou morto devem ser contados como grupo.
  3. Para cada grupo, o final deve ser calculado como o primeiro registro fechado ou todos os registros têm um valor como morto e usamos a maior data da coluna morta.
  4. Se um registro não iniciar dentro de 15 dias após o início ou o fim de outro grupo, ele iniciará um novo agrupamento.

Como tentativa, acredito que meus dados devem ficar assim:

user_id | iniciado | fim
-------------------------------------------------- ----
238846 2015-01-27 15:14:50 | 2015-02-02 14:14:13
259140 2015-03-23 ​​14:32:16 | 2015-03-24 15:57:32
242650 2015-04-16 16:19:08 | 2015-04-16 16:21:06
242650 2015-05-21 13:09:06 | NULO
238846 2015-05-15 13:17:31 | NULO

Alguém pode fornecer alguma orientação sobre como criar uma consulta para atender a essas condições?

Aqui está um link para as instruções DDL e DML para os dados apresentados nesta pergunta.

Como alternativa, podemos pular as regras 2 e 4 e, mais simplesmente, declarar que apenas os registros que se sobrepõem devem ser incluídos. A regra mais importante é que, em um determinado conjunto, se houver uma data fechada, esse se tornará o final do conjunto e não o maior prazo final.

Noah Goodrich
fonte
Isso seria mais fácil com uma alteração de esquema. Não há necessidade das duas colunas, fechadas e mortas. Basta ter uma coluna "finalizada" e, em seguida, uma razão para o final.
Andrew Brennan
Seus 3 primeiros exemplos podem ser codificado como "Se um id é 'fechado', então é um grupo em si mesmo Desde que não parece destacar todas as suas regras, por favor, adicionar mais exemplos..
Rick James

Respostas:

3

Devido à falta de clareza na pergunta, criei quatro soluções diferentes. As soluções diferem em:

  1. Se você deseja "cascatear" de acordo com a resposta de Chris
  2. Quando você tem uma data de fechamento, use a data mais antiga para esse grupo ou a data de início do registro que está fechado.

Observe que isso é feito no SQL Server, não no MySQL. Além de algumas alterações muito pequenas na sintaxe, deve funcionar da mesma maneira.

Dados comuns de configuração e de amostra para todos os quatro métodos

CREATE TABLE #example 
(
    id int NOT NULL DEFAULT '0',
    borrower_id int NOT NULL,
    started datetime NULL DEFAULT NULL,
    closed datetime NULL DEFAULT NULL,
    dead datetime NULL DEFAULT '0000-00-00 00:00:00'
);

CREATE TABLE #result 
(   
    borrower_id int NOT NULL DEFAULT '0',    
    started datetime NULL DEFAULT NULL,    
    ended datetime NULL DEFAULT NULL 
);    

INSERT INTO #example 
    (id, borrower_id, started, closed, dead) 
VALUES 
    (7714,238846,'2015-01-27 15:14:50','2015-02-02 14:14:13',NULL), 
    (7882,238846,'2015-01-28 13:25:58',NULL,'2015-05-15 12:16:07'), 
    (13190,259140,'2015-03-17 10:11:44',NULL,'2015-03-18 07:31:57'), 
    (13192,259140,'2015-03-17 10:12:17',NULL,'2015-03-18 11:46:46'), 
    (13194,259140,'2015-03-17 10:12:53',NULL,'2015-03-18 11:46:36'), 
    (14020,259140,'2015-03-23 14:32:16','2015-03-24 15:57:32',NULL), 
    (17124,242650,'2015-04-16 16:19:08','2015-04-16 16:21:06',NULL), 
    (19690,238846,'2015-05-15 13:17:31',NULL,'2015-05-27 13:56:43'), 
    (20038,242650,'2015-05-19 15:38:17',NULL,NULL), 
    (20040,242650,'2015-05-19 15:39:58',NULL,'2015-05-21 12:01:02'), 
    (20302,242650,'2015-05-21 13:09:06',NULL,NULL), 
    (20304,242650,'2015-05-21 13:09:54',NULL,NULL), 
    (20306,242650,'2015-05-21 13:10:19',NULL,NULL), 
    (20308,242650,'2015-05-21 13:12:20',NULL,NULL), 
    (21202,238846,'2015-05-29 16:47:29',NULL,NULL), 
    (21204,238846,'2015-05-29 16:47:56',NULL,NULL), 
    (21208,238846,'2015-05-29 17:05:15',NULL,NULL), 
    (21210,238846,'2015-05-29 17:05:55',NULL,NULL), 
    (21918,242650,'2015-06-04 17:04:29',NULL,'2015-06-12 15:47:23'); 

1. CASCADING - USANDO A SOLUÇÃO FECHADA DE REGISTROS

Esta é a solução que acredito que o solicitante está procurando e corresponde aos seus resultados.

select *
into #temp1
from #example

while (select count(1) from #temp1)>0
begin
    --Grab only one user's records and place into a temp table to work with
    declare @curUser int
    set @curUser=(select min(borrower_id) from #temp1)

    select * 
    into #temp2
    from #temp1 t1
    where t1.borrower_id=@curUser

    while(select count(1) from #temp2)>0
    begin
        --Grab earliest start date and use as basis for 15 day window (#2 rule)
        --Use the record as basis for rules 3 and 4
        declare @minTime datetime
        set @minTime=(select min(started) from #temp2)

        declare @maxTime datetime
        set @maxTime=@minTime

        declare @curId int
        set @curId=(select min(id) from #temp2 where started=@minTime)

        select * 
        into #temp3
        from #temp2 t2
        where t2.id=@curId

        --Remove earliest record from pool of potential records to check rules against
        delete 
        from #temp2 
        where id=@curId

        --Insert all records within 15 days of start date, then remove record from pool
        while (select count(1) 
                from #temp2 t2 
                where t2.started<=DATEADD(day,15,@maxTime) 
                    or t2.closed<=DATEADD(day,15,@maxTime) 
                    or t2.dead<=DATEADD(day,15,@maxTime)  )>0
        begin
            insert into #temp3
            select *
            from #temp2 t2
            where t2.started<=DATEADD(day,15,@maxTime)  or t2.closed<=DATEADD(day,15,@maxTime)  or t2.dead<=DATEADD(day,15,@maxTime) 

            delete
            from #temp2
            where started<=DATEADD(day,15,@maxTime)  or closed<=DATEADD(day,15,@maxTime)  or dead<=DATEADD(day,15,@maxTime) 

            --set new max time from any column
            if (select max(started) from #temp3)>@maxTime
                set @maxTime=(select max(started) from #temp3)
            if (select max(closed) from #temp3)>@maxTime
                set @maxTime=(select max(started) from #temp3)
            if (select max(dead) from #temp3)>@maxTime
                set @maxTime=(select max(started) from #temp3)

        end

        --Calculate end time according to rule #3
        declare @end datetime 
        set @end = null
        set @end=(select min(closed) from #temp3)

        if @end is not null
        begin
            set @minTime=(select started from #temp3 where closed=@end)
        end

        if @end is null
        begin
            if(select count(1) from #temp3 where dead is null)=0
            set @end= (select max(dead) from #temp3)
        end

        insert into #result (borrower_id,started,ended)
        values (@curUser,@minTime,@end)

        drop table #temp3
    end

    --Done with the one user, remove him from temp table and iterate thru to the next user
    delete  
    from #temp1 
    where borrower_id=@curUser    

    drop table #temp2

end

drop table #temp1

drop table #example

select * from #result order by started

drop table #result

2. NÃO-CASCADING - USANDO A SOLUÇÃO FECHADA

O início é calculado pela primeira data de fechamento, quando disponível, e pela data de início mais antiga.

select *
into #temp1
from #example

while (select count(1) from #temp1)>0
begin
    --Grab only one user's records and place into a temp table to work with
    declare @curUser int
    set @curUser=(select min(borrower_id) from #temp1)

    select * 
    into #temp2
    from #temp1 t1
    where t1.borrower_id=@curUser

    while(select count(1) from #temp2)>0
    begin
        --Grab earliest start date and use as basis for 15 day window (#2 rule)
        --Use the record as basis for rules 3 and 4
        declare @minTime datetime
        set @minTime=(select min(started) from #temp2)

        declare @curId int
        set @curId=(select min(id) from #temp2 where started=@minTime)

        select * 
        into #temp3
        from #temp2 t2
        where t2.id=@curId

        --Remove earliest record from pool of potential records to check rules against
        delete 
        from #temp2 
        where id=@curId

        --Insert all records within 15 days of start date, then remove record from pool
        insert into #temp3
        select *
        from #temp2 t2
        where t2.started<=DATEADD(day,15,@minTime)

        delete
        from #temp2
        where started<=DATEADD(day,15,@minTime)

        --Insert all records within 15 days of closed, then remove record from pool
        insert into #temp3
        select *
        from #temp2 t2
        where t2.closed<=DATEADD(day,15,@minTime)

        delete
        from #temp2
        where closed<=DATEADD(day,15,@minTime)

        --Insert all records within 15 days of dead, then remove record from pool
        insert into #temp3
        select *
        from #temp2 t2
        where t2.dead<=DATEADD(day,15,@minTime)

        delete
        from #temp2
        where dead<=DATEADD(day,15,@minTime)

        --Calculate end time according to rule #3
        declare @end datetime 
        set @end = null
        set @end=(select min(closed) from #temp3)

        if @end is not null
        begin
            set @minTime=(select started from #temp3 where closed=@end)
        end

        if @end is null
        begin
            if(select count(1) from #temp3 where dead is null)=0
            set @end= (select max(dead) from #temp3)
        end

        insert into #result (borrower_id,started,ended)
        values (@curUser,@minTime,@end)

        drop table #temp3
    end

    --Done with the one user, remove him from temp table and iterate thru to the next user
    delete  
    from #temp1 
    where borrower_id=@curUser


    drop table #temp2

end

drop table #temp1

drop table #example

select * from #result

drop table #result

3. NÃO CASCADING - USANDO A SOLUÇÃO DE DATA MAIS ANTIGA

Início calculado apenas pela data mais antiga.

select *
into #temp1
from #example

while (select count(1) from #temp1)>0
begin
    --Grab only one user's records and place into a temp table to work with
    declare @curUser int
    set @curUser=(select min(borrower_id) from #temp1)

    select * 
    into #temp2
    from #temp1 t1
    where t1.borrower_id=@curUser

    while(select count(1) from #temp2)>0
    begin
        --Grab earliest start date and use as basis for 15 day window (#2 rule)
        --Use the record as basis for rules 3 and 4
        declare @minTime datetime
        set @minTime=(select min(started) from #temp2)

        declare @curId int
        set @curId=(select min(id) from #temp2 where started=@minTime)

        select * 
        into #temp3
        from #temp2 t2
        where t2.id=@curId

        --Remove earliest record from pool of potential records to check rules against
        delete 
        from #temp2 
        where id=@curId

        --Insert all records within 15 days of start date, then remove record from pool
        insert into #temp3
        select *
        from #temp2 t2
        where t2.started<=DATEADD(day,15,@minTime) or t2.closed<=DATEADD(day,15,@minTime) or t2.dead<=DATEADD(day,15,@minTime)

        delete
        from #temp2
        where started<=DATEADD(day,15,@minTime) or closed<=DATEADD(day,15,@minTime) or dead<=DATEADD(day,15,@minTime)

        --Calculate end time according to rule #3
        declare @end datetime 
        set @end = null

        set @end=(select min(closed) from #temp3)

        if @end is null
        begin
            if(select count(1) from #temp3 where dead is null)=0
            set @end= (select max(dead) from #temp3)
        end

        insert into #result (borrower_id,started,ended)
        values (@curUser,@minTime,@end)

        drop table #temp3
    end

    --Done with the one user, remove him from temp table and itterate thru to the next user
    delete  
    from #temp1 
    where borrower_id=@curUser    

    drop table #temp2

end

drop table #temp1

drop table #example

select * from #result

drop table #result

4. CASCADING - USANDO A SOLUÇÃO MAIS ANTIGA DATA

Início calculado apenas pela data mais antiga.

select *
into #temp1
from #example

while (select count(1) from #temp1)>0
begin
--Grab only one user's records and place into a temp table to work with
declare @curUser int
set @curUser=(select min(borrower_id) from #temp1)

select * 
into #temp2
from #temp1 t1
where t1.borrower_id=@curUser

while(select count(1) from #temp2)>0
begin
    --Grab earliest start date and use as basis for 15 day window (#2 rule)
    --Use the record as basis for rules 3 and 4
        declare @minTime datetime
    set @minTime=(select min(started) from #temp2)


    declare @maxTime datetime
    set @maxTime=@minTime

    declare @curId int
    set @curId=(select min(id) from #temp2 where started=@minTime)

    select * 
    into #temp3
    from #temp2 t2
    where t2.id=@curId

    --Remove earliest record from pool of potential records to check rules against
    delete 
    from #temp2 
    where id=@curId

    --Insert all records within 15 days of start date, then remove record from pool
    while (select count(1) 
            from #temp2 t2 
            where t2.started<=DATEADD(day,15,@maxTime) 
                or t2.closed<=DATEADD(day,15,@maxTime) 
                or t2.dead<=DATEADD(day,15,@maxTime)  )>0
    begin
        insert into #temp3
        select *
        from #temp2 t2
        where t2.started<=DATEADD(day,15,@maxTime)  or t2.closed<=DATEADD(day,15,@maxTime)  or t2.dead<=DATEADD(day,15,@maxTime) 

        delete
        from #temp2
        where started<=DATEADD(day,15,@maxTime)  or closed<=DATEADD(day,15,@maxTime)  or dead<=DATEADD(day,15,@maxTime) 

        --set new max time from any column
        if (select max(started) from #temp3)>@maxTime
            set @maxTime=(select max(started) from #temp3)
        if (select max(closed) from #temp3)>@maxTime
            set @maxTime=(select max(started) from #temp3)
        if (select max(dead) from #temp3)>@maxTime
            set @maxTime=(select max(started) from #temp3)

    end

    --Calculate end time according to rule #3
    declare @end datetime 
    set @end = null

    set @end=(select min(closed) from #temp3)

    if @end is null
    begin
        if(select count(1) from #temp3 where dead is null)=0
        set @end= (select max(dead) from #temp3)
    end

    insert into #result (borrower_id,started,ended)
    values (@curUser,@minTime,@end)

    drop table #temp3
end

--Done with the one user, remove him from temp table and iterate thru to the next user
delete  
from #temp1 
where borrower_id=@curUser

drop table #temp2

end

drop table #temp1

drop table #example

select * from #result order by started

drop table #result
Anthony Genovese
fonte
-2

Estou preocupado que possamos não ter uma imagem clara de como um grupo é definido. Só digo isso porque, dependendo de algumas condições não declaradas, as datas acima formarão um único grupo gigante ou três grupos em que um grupo domina o conjunto.

Faltam condições de agrupamento?

1) Essa regra de 15 dias fica em cascata? Se um registro Yiniciar 10 dias após outro registro Xe houver outro registro Ziniciado 10 dias depois, ele formará um grupo de três registros X,Y,Zou dois grupos, cada um contendo dois registros X,Ye Y,Z? Eu assumi que as regras de 15 dias se conectam em cascata para formar grupos maiores.

2) As datas são inclusivas? Por exemplo, se um registro tiver uma data de início e uma data final muitos meses depois, todos os dias nesse intervalo serão mesclados ao grupo? Trato as duas possibilidades em minha análise rápida abaixo.

Agrupamentos potenciais

Portanto, se começarmos com id 7714, veremos que a data de início é 1/27. Claramente, a próxima entrada a 7882partir de 1/28 se enquadra nesse grupo. Observe, no entanto, que 7882termina em 15/5, portanto, qualquer coisa que comece dentro de 15 dias a partir de 15/5 deve ser adicionada ao grupo.

Assim, 19690por meio de 21210adição ao grupo, que via cascata leva a 21918ser adicionado posteriormente ao grupo. A cascata consumiu quase todas as entradas do conjunto. Ligue para isso GROUP A.

No entanto, se o agrupamento incluir também a data, todas as entradas de 13190até 17124também deverão pertencer GROUP Ae agora todos os IDs estarão em um único grupo.

Se as datas de GROUP Anão forem inclusivas, mas realmente seguirem estritamente a regra '15 dias depois 'com cascata, você terá um segundo grupo composto por 13190through 14020e um terceiro grupo com uma única entrada 17124,.

Essencialmente, minha pergunta é: alguma delas corresponde ao seu agrupamento pretendido ou há alguma outra informação que está faltando na definição do grupo? Sinto muito por uma resposta tão demorada, mas não parece que sua tentativa de saída solicitada atenda à sua definição de agrupamento.

Com esclarecimentos, tenho certeza de que podemos resolver esse problema.

Chris
fonte
E se eu me livrasse da regra dos 15 dias? Isso simplificaria o problema?
Noah Goodrich
2
Além disso, acho que você perdeu a noção de dar precedência à primeira data de fechamento da última data de morte. Como resultado, para o primeiro agrupamento iniciado em 1/27, a data de fechamento de 2/2 se torna o final do grupo e não em 15/5.
Noah Goodrich
Caramba, você está certo, eu interpretei mal o que você disse sobre o primeiro morto fechado / último ... Desculpe, eu estava trabalhando nisso ontem à noite por volta das 12:30 da noite no horário do Pacífico, então eu posso ter ficado um pouco sonolento. :) Além disso, o agrupamento adicional por dados do usuário pode ajudar, eu acho. Vou pensar um pouco mais e tentar voltar para você.
Chris