Neste caso em particular, estou me referindo ao dia em que um lago congela. Essa data de início ocorre apenas uma vez por ano, mas às vezes não ocorre (se o inverno é quente). Assim, em um ano, o lago pode congelar no dia 20 (20 de janeiro) e em outro ano pode não congelar.
O objetivo é descobrir os condutores da data de partida.
Preditores seriam coisas como temperatura do ar no outono / inverno a cada ano. O ano pode ser um preditor para a tendência linear de longo prazo.
1) O inteiro "dia do ano" é uma variável de resposta razoável (se não, qual é?)?
2) Como lidar com os anos em que o lago nunca congelou?
Editar:
Não sei qual é a etiqueta aqui, mas achei que publicaria o resultado das sugestões que recebi. Aqui está o jornal, acesso aberto . Recebi um bom feedback sobre a abordagem usada, obrigado @pedrofigueira e @cboettig. Claro, os erros são meus.
Respostas:
Acho que se pode considerar o "dia do ano" como uma variável de resposta a uma regressão multivariada. Para lidar com os anos em que o lago nunca congela, eu consideraria simplesmente que o dia de congelamento é maior que um limite inferior observável que corresponde, por exemplo, ao dia em que o conteúdo de gelo começa a derreter (ou derrete completamente, se você quiser seja muito conservador). Teoricamente, deve congelar depois disso, ou pode congelar depois disso, mas não sabemos. Dessa forma, você pode usar os dados coletados nos diferentes parâmetros para entender como o dia de congelamento depende deles, se for permitido que seja posterior à data mais recente observável. Você pode usar um modelo Tobitlidar simultaneamente com dias de congelamento (correspondendo a pontos de dados "normais") e limites mais baixos (correspondendo a limites e, portanto, uma regressão censurada).
Para incluir corretamente os limites inferiores medidos na análise, você pode usar um modelo de regressão censurado no qual a variável dependente tem um limite no valor do limite inferior. O modelo Tobit acima mencionado é apropriado para este caso; ele assume a existência de uma não observável (latente) dependente variável que, no nosso caso corresponde à data congelação se o inverno estendido indefinidamente. A variável dependente observável y i (ou seja, o limite inferior medido na data de congelamento) é então considerada igual à variável latente na ausência de um limite inferior L i e igual ao limite inferior caso contrárioy∗i yi Li
A aplicação do modelo Tobit para lidar com a censura de observação por observação resulta em uma função de probabilidade logarítmica da forma
fonte
O dia do ano é uma variável preditora sensata e, para isso, acho sensato tratá-lo como a @pedrofigueira sugere.
Para outras variáveis preditivas, pode ser necessário ter cuidado com a forma como você representa o tempo. Por exemplo, imagine que você tem temperatura do ar por dia - como você modelaria a temperatura do ar como um preditor de gelo no dia? Não acho que comparar as mesmas amostras do dia do ano seja suficiente.
Em qualquer análise, acho que ajuda a escrever o que você acha que pode ser um modelo (ou modelos) de geração plausível dos dados (onde alguma física pode estar disponível como um guia). Por exemplo, um modelo razoável pode ser o de integrar o número de dias abaixo do congelamento e, quando essa integral ultrapassa um limite (por exemplo, relacionado à massa térmica do lago), ocorre o congelamento. Nesse modelo, você pode perguntar o que é uma aproximação razoável e o que não é.
Por exemplo, o dia do ano como preditor é importante para esse modelo apenas em um dia do ano é um bom preditor de temperatura. Assim, conhecendo apenas o dia do ano, seria apenas um dia do ano médio correspondente ao limiar de gelo, com talvez uma distribuição normal sobre ele resultante de variações interanuais de temperatura e, portanto, procurando uma tendência no dia-a-dia. do ano é completamente justificado.
Mas se você conhece outras variáveis como temperatura do ar durante o dia, provavelmente está enfrentando um modelo mais complicado, mais diretamente. Se você está apenas usando os valores anuais (mínimos? Significa?) Do que a variável como preditor de dias de gelo também parece razoável (pelo mesmo argumento acima).
fonte
Para esse problema, você precisa de duas variáveis de resposta. Uma resposta booleana que indica se o lago congelou ou não, e uma resposta inteira fornecendo o dia do ano, desde que o indicador seja verdadeiro. Nos anos em que o lago congelou, o booleano e o inteiro são observados. Nos anos em que o lago não congelou, o booleano é observado e o número inteiro não. Você pode usar uma regressão logística para o booleano. A regressão para o dia do ano pode ser uma regressão linear comum.
A natureza circular do dia do ano não deve ser um problema, desde que você numere os possíveis dias de congelamento consecutivos dentro de um determinado período. Se você está se perguntando por onde começar a numeração, sugiro o dia em que os preditores foram medidos. Se você deseja que o modelo represente efeitos causais, é necessário que todos os preditores tenham sido medidos antes de qualquer possível congelamento.
Para lidar com a natureza inteira e delimitada do dia do ano, poderia usar um modelo de discretização. Ou seja, existe um valor latente real que gera uma observação da seguinte maneira: se o valor estiver dentro dos limites, a observação será igual ao valor latente arredondado para o número inteiro mais próximo, caso contrário, o valor será truncado para os limites. O próprio valor latente pode ser modelado como uma função linear dos preditores mais ruído.
fonte
O que você tem são dados de tempo até o evento, que também são denominados análise de sobrevivência. Essa não é realmente a minha área, por isso não estou dando uma resposta detalhada aqui. Pesquisando no Google para "dados de tempo de eventos" ou "análise de sobrevivência", você terá muitos hits!
Um bom ponto de partida poderia ser o capítulo (13) sobre a análise de sobrevivência em Venables / Ripley: MASS, ou o clássico "A análise estatística de dados de tempo de falha, segunda edição", de John D. Kalbfleisch, Ross L. Prentice (aut.)
EDITAR, RESPOSTA ESTENDIDA
Como alternativa à análise de sobrevivência, você pode aproximar isso por regressão logística ordinal. Por exemplo, no seu caso de exemplo da primeira data de congelamento, defina algumas datas para as quais você atribui o estado "estiver congelando no ou antes", 0 (sem congelamento), 1 (congelamento). Que acomoda muito bem os anos sem congelar, você simplesmente tem um vetor de resposta zero. Se as datas escolhidas forem, digamos,
e, em geral, todos os vetores de resposta terão um bloco inicial de zeros, seguido por um bloco de zeros. Em seguida, você pode usar isso com regressão logística ordinal, obtendo uma probabilidade estimada de congelamento para cada data. Traçar essa curva fornecerá uma aproximação para uma curva de sobrevivência (a sobrevivência, nesse contexto, torna-se "ainda não congelada").
Também é possível ver seus dados como eventos recorrentes, já que o rio congela (quase) todos os anos. Veja minha resposta aqui: Encontrando preditores significativos de readmissões psiquiátricas
fonte