Teste de associação para um DV normalmente distribuído por variáveis ​​independentes direcionais?

10

Existe um teste de hipótese para determinar se uma variável dependente distribuída normalmente está associada a uma variável distribuída direcionalmente ?

Por exemplo, se hora do dia é a variável explicativa (e supor que coisas como dia da semana, mês do ano etc. são irrelevantes) - é assim que se deve considerar o fato de que as 23h estão 22 horas à frente da 1h e também 2 horas atrás de 01:00 em um teste de associação? Posso testar se a hora do dia contínua explica a variável dependente sem assumir que 12:00 da meia-noite não segue um minuto depois das 23:59?

Este teste também se aplica a variáveis ​​explicativas direcionais discretas ( modulares ?)? Ou isso requer um teste separado? Por exemplo, como testar se a variável dependente é explicada por mês do ano (assumindo que dia e estação do ano e ano ou década específicos são irrelevantes). O tratamento do mês do ano ignora categoricamente a ordem. Mas tratar o mês do ano como uma variável ordinal padrão (digamos Jan = 1 ... Dez = 12) ignora que janeiro venha dois meses após novembro.

Alexis
fonte
11
A resposta pode encher um livro (e há vários deles por aí). Tornar sua pergunta mais específica pode ajudar a concentrar as respostas no que é importante para você.
whuber
@whuber Um ... Deus ... você pode me ajudar em como diminuir? Especificando uma distribuição para o DV? Limitar a apenas um único teste, em vez de regressão? Estou um pouco perplexo e não sei por onde começar ...
Alexis
@whuber Tentei restringir bastante a questão e agradeceria por qualquer indicação de torná-la mais útil (eu realmente quero apenas um ponto de partida para pensar em preditores modulares). Se isso agora estiver em uma forma decente, provavelmente continuarei com uma pergunta semelhante sobre esse teste que é livre de distribuição no DV.
Alexis
@whuber Meditar o IV modular discreto em um contexto de regressão: um modelo misto de dois níveis com o IV modular discreto como identificador de nível 2 com cada unidade de nível 2 com uma variável de efeito pré e pós-aleatória igual à valor anterior e subsequente no sistema numérico estar no caminho certo?
Alexis28 /
Veja aqui jstatsoft.org/article/view/v031i10/v31i10.pdf , página 16.
ameba

Respostas:

9

Em geral, acho que é mais proveitoso cientificamente e estatisticamente começar com uma pergunta mais ampla e diferente, que é até que ponto uma resposta pode ser prevista a partir de um preditor circular. Digo aqui circular, em vez de direcional , em parte porque o último inclui espaços esféricos e ainda mais fabulosos, que nem todos podem ser abordados em uma única resposta; e em parte porque seus exemplos, hora do dia e época do ano , são circulares. Outro exemplo importante é a direção da bússola (relevante para ventos, movimentos de animais ou humanos, alinhamentos etc.), que aparece em muitos problemas circulares: de fato, para alguns cientistas, é um ponto de partida mais óbvio.

Sempre que você pode se safar, usar as funções de tempo seno e cosseno em algum tipo de modelo de regressão é um método de modelagem simples e fácil de implementar. É o primeiro porto de escala para muitos exemplos biológicos e / ou ambientais. (Os dois tipos geralmente são misturados, porque os fenômenos bióticos que mostram a sazonalidade geralmente respondem direta ou indiretamente ao clima ou ao clima.)

Para concretude, imagine medições de tempo superiores a 24 horas ou 12 meses, de modo que, por exemplo,

sin[2π(hour/24)],  cos[2π(hour/24)]

sin[2π(month/12)],  cos[2π(month/12)]

cada um descreve um ciclo durante todo o dia ou ano. Um teste formal de não haver relação entre uma resposta medida ou contada e algum tempo circular seria, então, um teste padrão para determinar se os coeficientes de seno e cosseno são conjuntamente zero em um modelo linear generalizado com seno e cosseno como preditores, um vínculo e uma família adequados sendo escolhido de acordo com a natureza da resposta.

A questão da distribuição marginal da resposta (normal ou outra) é nesta abordagem secundária e / ou deve ser tratada pela escolha da família.

O mérito dos senos e cossenos é naturalmente que eles são periódicos e se envolvem automaticamente, de modo que os valores no início e no final de cada dia ou ano são necessariamente um e o mesmo. Não há problema com condições de contorno, porque não há limites.

Essa abordagem foi denominada regressão circular, periódica, trigonométrica e de Fourier. Para uma revisão tutorial introdutória, veja aqui

Na prática,

  1. Esses testes geralmente mostram resultados extremamente significativos nos níveis convencionais sempre que esperamos sazonalidade. A questão mais interessante é então a curva sazonal precisa estimada, e se precisamos de um modelo mais complicado com outros termos senoidais também.

  2. Nada exclui outros preditores também; nesse caso, simplesmente precisamos de modelos mais abrangentes com outros preditores incluídos, como seno e cosseno para sazonalidade e outros preditores para todo o resto.

  3. Em algum momento, dependendo em conjunto dos dados, do problema, dos gostos e da experiência do pesquisador, pode ser mais natural enfatizar o aspecto da série temporal do problema e criar um modelo com dependência de tempo explícita. De fato, algumas pessoas estatisticamente negadas negariam a existência de outra maneira de abordá-lo.

O que é facilmente nomeado como tendência (mas nem sempre é tão facilmente identificável) se enquadra em # 2 ou # 3, ou mesmo em ambos.

Muitos economistas e outros cientistas sociais preocupados com a sazonalidade nos mercados, economias nacionais e internacionais ou outros fenômenos humanos geralmente ficam mais impressionados com as possibilidades de variabilidade mais complicada a cada dia ou (mais comumente) ano. Freqüentemente, embora nem sempre, a sazonalidade é um incômodo a ser removido ou ajustado, em contraste com os cientistas biológicos e ambientais que freqüentemente consideram a sazonalidade interessante e importante, mesmo o foco principal de um projeto. Dito isto, economistas e outros também também adotam uma abordagem do tipo regressão, mas com munição um conjunto de variáveis ​​indicadoras (fictícias), mais simplesmente variáveis ​​para cada mês ou cada trimestre do ano0,1. Essa pode ser uma maneira prática de tentar captar os efeitos de feriados nomeados, períodos de férias, efeitos colaterais dos anos escolares etc., bem como influências ou choques de origem climática ou climática. Com essas diferenças observadas, a maioria dos comentários acima também se aplica às ciências econômicas e sociais.

Atitudes e abordagens de epidemiologistas e estatísticos médicos preocupados com variações na morbidade, mortalidade, internações hospitalares, visitas a clínicas e afins tendem a ficar entre esses dois extremos.

Na minha opinião, dividir dias ou anos em duas partes para comparar é geralmente arbitrário, artificial e, na melhor das hipóteses, estranho. Também está ignorando o tipo de estrutura suave normalmente presente nos dados.

EDITAR A conta até agora não aborda a diferença entre tempo discreto e tempo contínuo, mas, por minha experiência, não considero isso um grande problema na prática.

Mas escolhas precisas dependem de como os dados chegam e do padrão de mudança.

Se os dados fossem trimestrais e humanos, eu tenderia a usar variáveis ​​indicadoras (por exemplo, os trimestres 3 e 4 geralmente são diferentes). Se mensal e humana, a escolha não é clara, mas você teria que trabalhar duro para vender seno e cosseno para a maioria dos economistas. Se mensal ou mais fino e biológico ou ambiental, definitivamente seno e cosseno.

EDIT 2 Mais detalhes sobre regressão trigonométrica

Um detalhe distintivo da regressão trigonométrica (nomeada de qualquer outra maneira, se você preferir) é que quase sempre os termos seno e cosseno são melhor apresentados a um modelo em pares. Escalamos primeiro a hora do dia, a hora do ano ou a direção da bússola, para que ela seja representada como um ângulo no círculo em radianos, portanto no intervalo . Em seguida, usamos quantos pares são necessários em um modelo. (Nas estatísticas circulares, as convenções trigonométricas tendem a superar as convenções estatísticas, de modo que símbolos gregos como são usados ​​para variáveis ​​e parâmetros.)θ[0,2π]sinkθ,coskθ,k=1,2,3,θ,ϕ,ψ

Se oferecermos um par de preditores como para um modelo semelhante a regressão, teremos estimativas de coeficiente, digamos , para termos no modelo, a saber . Esta é uma maneira de ajustar a fase, bem como a amplitude de um sinal periódico. Em outras palavras, uma função como pode ser reescrita comosinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)

sinθcosϕ+cosθsinϕ,

mas e representando a fase são estimados no ajuste do modelo. Dessa forma, evitamos um problema de estimativa não linear.sin φcosϕsinϕ

Se usarmos para modelar a variação circular, automaticamente o máximo e o mínimo dessa curva estarão separados por meio círculo. Essa geralmente é uma aproximação muito boa para variações biológicas ou ambientais, mas, inversamente, podemos precisar de vários outros termos para capturar a sazonalidade econômica em particular. Essa poderia ser uma boa razão para usar variáveis ​​indicadoras, o que leva imediatamente a interpretações simples dos coeficientes.b1sinθ+b2cosθ

Nick Cox
fonte
Observo alguma sobreposição surpreendente com a resposta de @ Kelvin.
Nick Cox
+1 (especialmente por usar "fabuloso" como você fez! :) Nick Cox, você faria a gentileza de tornar explícito o caso de variáveis ​​circulares discretas também, conforme minha pergunta? Isso seria tão simples quanto a abordagem "modelagem trigonométrica" ​​que você descreve usando uma medida discreta de tempo? Ou seria preciso haver "correções de continuidade" de algum tipo?
Alexis #
Tanto quanto sei, a única diferença entre variáveis ​​circulares discretas e contínuas é no arredondamento de valores para pontos discretos (por exemplo, 14h vs 14,12345hrs), como ocorre com variáveis ​​não circulares, portanto não haverá muita diferença desde que você aplique menos arredondamentos com pequenas etapas em relação ao período geral. Basicamente, é apenas uma questão de ter algum erro de arredondamento ou não. Melhor não, se você puder evitá-lo.
Kelvin
Concordo que discreto e contínuo não são muito diferentes. Na prática, muitas medições são mais ou menos grosseiras relatando apenas trimestres, meio anos, meses, dias etc. ou como algo que varia de (N. S) a (N, E, S, W) até uma resolução mais precisa para instruções da bússola. Em detalhes, há diferenças entre medições pontuais (a temperatura em um momento preciso) e medições de intervalo (por exemplo, vendas mensais totais). Eu não agruparia todos esses detalhes como erro de arredondamento, pois, às vezes, não há erro como agregação ou média.
Nick Cox
4

Aqui está uma opção livre de distribuição, pois parece que é isso que você está procurando de qualquer maneira. Não é particular no campo das estatísticas circulares, das quais sou bastante ignorante, mas é aplicável aqui e em muitos outros contextos.

Deixe sua variável direcional ser .X

Deixe a outra variável ser , que pode estar em para qualquer (ou, de fato, qualquer tipo de objeto no qual um kernel útil possa ser definido: gráficos, seqüências de caracteres, imagens, distribuições de probabilidade, amostras de distribuições de probabilidade, ...).R d d 1YRdd1

Defina e suponha que você tenha observações .m z i = ( x i , y i )Z:=(X,Y)mzi=(xi,yi)

Agora, realize um teste usando o Critério de Independência de Hilbert Schmidt (HSIC), como no artigo a seguir:

Gretton, Fukumizu, Teo, Song, Schölkopf e Smola. Um Teste Estatístico de Independência do Kernel. NIPS 2008. ( pdf )

Isso é:

  • Definir um kernel para . Aqui queremos dizer um núcleo no sentido de um método de núcleo , ou seja, um núcleo de um RKHS .XkX

    • Uma opção é representar no círculo unitário em (como na edição de Kelvin) e usar o kernel gaussiano . Aqui define a suavidade do seu espaço; configurá-lo para a distância mediana entre os pontos em geralmente é bom o suficiente.XR2k(x,x)=exp(12σ2xx2)σX
    • Outra opção é representar como um ângulo, digamos em , e usar o kernel von Mises . Aqui é um paramater de suavidade. 1X[π,π]k(x,x)=exp(κcos(xx))κ
  • Defina um kernel para , da mesma forma. Para em o kernel gaussiano, acima, é um padrão razoável.lYYRn

  • Deixe- , , e ser matrizes tal como , , e representa a matriz de centragem . Então a estatística de teste possui algumas boas propriedades quando usada como teste de independência. Sua distribuição nula pode ser aproximada por correspondência de momento com uma distribuição gama (computacionalmente eficiente) ou por bootstrapping (mais preciso para amostras pequenas).HKLm×mKij=k(xi,xj)Lij=l(yi,yj)H H=I1m11T1m2tr(KHLH)

O código Matlab para realizar isso com os kernels RBF está disponível no primeiro autor aqui .


Essa abordagem é boa porque é geral e tende a ter um bom desempenho. As principais desvantagens são:

  • m2 complexidade computacional para calcular a estatística de teste; isso pode ser reduzido com aproximações do kernel, se houver algum problema.
  • A distribuição nula complicada. Para ish grande , a aproximação gama é boa e não muito onerosa; para pequeno , a inicialização é necessária.mm
  • Escolha do kernel. Conforme apresentado acima, os núcleos e devem ser selecionados heuristicamente. Este artigo fornece um critério não ideal para selecionar o kernel; este artigo apresenta um bom método para uma versão de dados com grandes dados que infelizmente perde poder estatístico. Alguns trabalhos estão em andamento no momento para um critério quase ideal nesse cenário, mas infelizmente ainda não está pronto para o consumo público.kl


1. Isso é frequentemente usado como um kernel de suavização para dados circulares, mas em uma pesquisa rápida não encontrei ninguém usando-o como um kernel RKHS. No entanto, é definido positivamente pelo teorema de Bochner , uma vez que a forma invariável de deslocamento é proporcional ao pdf de uma distribuição de von Mises com média 0, cuja função característica é proporcional a uma distribuição uniforme em seu suporte. .k(xx)[π,π]

Dougal
fonte
3

Você pode executar um teste t entre a média das "metades" opostas do período, por exemplo, comparando o valor médio das 12h às 12h com o valor médio das 12h às 12h. Em seguida, compare o valor médio das 18:00 às 18:00 com o valor médio das 18:00 às 18:00.

Ou, se você tiver dados suficientes, poderá dividir o período em segmentos menores (por exemplo, a cada hora) e executar um teste t entre cada par de segmentos, enquanto corrige várias comparações.

Como alternativa, para uma análise mais "contínua" (ou seja, sem segmentação arbitrária), você pode executar regressões lineares contra as funções seno e cosseno da sua variável direcional (com o período correto), que "circularizará" automaticamente seus dados:

x=sin(x2π/period)
x=cos(x2π/period)

O principal problema de qualquer abordagem desse tipo é que será difícil garantir que a fase do seu modelo esteja configurada para selecionar a correlação máxima; portanto, você pode precisar tentar várias fases diferentes ou selecionar a fase a olho para formular seu valor hipotético :a

x=sin((x+a)2π/period)

No entanto, idealmente você deve formular sua hipótese (por exemplo, as tardes são mais ativos do que as manhãs) e, em seguida, definir o apropriado antes mesmo de olhar para os dados.a

EDIT: Um outro pensamento é que você pode executar uma regressão múltipla contra AMBAS as funções seno e cosseno da variável direcional, ao mesmo tempo (ou seja, entre o seu variável normal além de e ) como que deve levar em conta a verdadeira "direção", da mesma maneira que o seno e o cosseno funcionam juntos, definem as coordenadas x e y de um círculo completo. Então você não precisaria se preocupar com o problema de fase separadamente, pois isso seria resolvido automaticamente. Eu nunca vi isso feito antes, mas não vejo por que não deveria funcionar.x x yxx

De qualquer forma, acho que você deve fazer algumas suposições sobre o período e depois testar de acordo.

Kelvin
fonte
Kelvin, "quebrar" os dados circulares como você descreve parece ignorar precisamente o problema que levantei sobre o pedido modular.
Alexis
Você leu a segunda metade da minha resposta, que descreve a análise contínua por regressão múltipla?
Kelvin
Você está certo sobre seno e cosseno juntos. Isso é explicado mais adiante na minha resposta e no artigo de 2006 que ele cita e em outras referências que ele cita.
Nick Cox
@ Nick - eu não tinha visto sua resposta como você postou após a minha última edição, mas é bom termos chegado à mesma resposta de forma independente, pois eu estava apenas sendo criativo (praticamente pensando em voz alta) e nunca tinha visto isso antes.
Kelvin