Existe um teste de hipótese para determinar se uma variável dependente distribuída normalmente está associada a uma variável distribuída direcionalmente ?
Por exemplo, se hora do dia é a variável explicativa (e supor que coisas como dia da semana, mês do ano etc. são irrelevantes) - é assim que se deve considerar o fato de que as 23h estão 22 horas à frente da 1h e também 2 horas atrás de 01:00 em um teste de associação? Posso testar se a hora do dia contínua explica a variável dependente sem assumir que 12:00 da meia-noite não segue um minuto depois das 23:59?
Este teste também se aplica a variáveis explicativas direcionais discretas ( modulares ?)? Ou isso requer um teste separado? Por exemplo, como testar se a variável dependente é explicada por mês do ano (assumindo que dia e estação do ano e ano ou década específicos são irrelevantes). O tratamento do mês do ano ignora categoricamente a ordem. Mas tratar o mês do ano como uma variável ordinal padrão (digamos Jan = 1 ... Dez = 12) ignora que janeiro venha dois meses após novembro.
Respostas:
Em geral, acho que é mais proveitoso cientificamente e estatisticamente começar com uma pergunta mais ampla e diferente, que é até que ponto uma resposta pode ser prevista a partir de um preditor circular. Digo aqui circular, em vez de direcional , em parte porque o último inclui espaços esféricos e ainda mais fabulosos, que nem todos podem ser abordados em uma única resposta; e em parte porque seus exemplos, hora do dia e época do ano , são circulares. Outro exemplo importante é a direção da bússola (relevante para ventos, movimentos de animais ou humanos, alinhamentos etc.), que aparece em muitos problemas circulares: de fato, para alguns cientistas, é um ponto de partida mais óbvio.
Sempre que você pode se safar, usar as funções de tempo seno e cosseno em algum tipo de modelo de regressão é um método de modelagem simples e fácil de implementar. É o primeiro porto de escala para muitos exemplos biológicos e / ou ambientais. (Os dois tipos geralmente são misturados, porque os fenômenos bióticos que mostram a sazonalidade geralmente respondem direta ou indiretamente ao clima ou ao clima.)
Para concretude, imagine medições de tempo superiores a 24 horas ou 12 meses, de modo que, por exemplo,
cada um descreve um ciclo durante todo o dia ou ano. Um teste formal de não haver relação entre uma resposta medida ou contada e algum tempo circular seria, então, um teste padrão para determinar se os coeficientes de seno e cosseno são conjuntamente zero em um modelo linear generalizado com seno e cosseno como preditores, um vínculo e uma família adequados sendo escolhido de acordo com a natureza da resposta.
A questão da distribuição marginal da resposta (normal ou outra) é nesta abordagem secundária e / ou deve ser tratada pela escolha da família.
O mérito dos senos e cossenos é naturalmente que eles são periódicos e se envolvem automaticamente, de modo que os valores no início e no final de cada dia ou ano são necessariamente um e o mesmo. Não há problema com condições de contorno, porque não há limites.
Essa abordagem foi denominada regressão circular, periódica, trigonométrica e de Fourier. Para uma revisão tutorial introdutória, veja aqui
Na prática,
Esses testes geralmente mostram resultados extremamente significativos nos níveis convencionais sempre que esperamos sazonalidade. A questão mais interessante é então a curva sazonal precisa estimada, e se precisamos de um modelo mais complicado com outros termos senoidais também.
Nada exclui outros preditores também; nesse caso, simplesmente precisamos de modelos mais abrangentes com outros preditores incluídos, como seno e cosseno para sazonalidade e outros preditores para todo o resto.
Em algum momento, dependendo em conjunto dos dados, do problema, dos gostos e da experiência do pesquisador, pode ser mais natural enfatizar o aspecto da série temporal do problema e criar um modelo com dependência de tempo explícita. De fato, algumas pessoas estatisticamente negadas negariam a existência de outra maneira de abordá-lo.
O que é facilmente nomeado como tendência (mas nem sempre é tão facilmente identificável) se enquadra em # 2 ou # 3, ou mesmo em ambos.
Muitos economistas e outros cientistas sociais preocupados com a sazonalidade nos mercados, economias nacionais e internacionais ou outros fenômenos humanos geralmente ficam mais impressionados com as possibilidades de variabilidade mais complicada a cada dia ou (mais comumente) ano. Freqüentemente, embora nem sempre, a sazonalidade é um incômodo a ser removido ou ajustado, em contraste com os cientistas biológicos e ambientais que freqüentemente consideram a sazonalidade interessante e importante, mesmo o foco principal de um projeto. Dito isto, economistas e outros também também adotam uma abordagem do tipo regressão, mas com munição um conjunto de variáveis indicadoras (fictícias), mais simplesmente variáveis para cada mês ou cada trimestre do ano0,1 . Essa pode ser uma maneira prática de tentar captar os efeitos de feriados nomeados, períodos de férias, efeitos colaterais dos anos escolares etc., bem como influências ou choques de origem climática ou climática. Com essas diferenças observadas, a maioria dos comentários acima também se aplica às ciências econômicas e sociais.
Atitudes e abordagens de epidemiologistas e estatísticos médicos preocupados com variações na morbidade, mortalidade, internações hospitalares, visitas a clínicas e afins tendem a ficar entre esses dois extremos.
Na minha opinião, dividir dias ou anos em duas partes para comparar é geralmente arbitrário, artificial e, na melhor das hipóteses, estranho. Também está ignorando o tipo de estrutura suave normalmente presente nos dados.
EDITAR A conta até agora não aborda a diferença entre tempo discreto e tempo contínuo, mas, por minha experiência, não considero isso um grande problema na prática.
Mas escolhas precisas dependem de como os dados chegam e do padrão de mudança.
Se os dados fossem trimestrais e humanos, eu tenderia a usar variáveis indicadoras (por exemplo, os trimestres 3 e 4 geralmente são diferentes). Se mensal e humana, a escolha não é clara, mas você teria que trabalhar duro para vender seno e cosseno para a maioria dos economistas. Se mensal ou mais fino e biológico ou ambiental, definitivamente seno e cosseno.
EDIT 2 Mais detalhes sobre regressão trigonométrica
Um detalhe distintivo da regressão trigonométrica (nomeada de qualquer outra maneira, se você preferir) é que quase sempre os termos seno e cosseno são melhor apresentados a um modelo em pares. Escalamos primeiro a hora do dia, a hora do ano ou a direção da bússola, para que ela seja representada como um ângulo no círculo em radianos, portanto no intervalo . Em seguida, usamos quantos pares são necessários em um modelo. (Nas estatísticas circulares, as convenções trigonométricas tendem a superar as convenções estatísticas, de modo que símbolos gregos como são usados para variáveis e parâmetros.)θ [0,2π] sinkθ,coskθ,k=1,2,3,… θ,ϕ,ψ
Se oferecermos um par de preditores como para um modelo semelhante a regressão, teremos estimativas de coeficiente, digamos , para termos no modelo, a saber . Esta é uma maneira de ajustar a fase, bem como a amplitude de um sinal periódico. Em outras palavras, uma função como pode ser reescrita comosinθ,cosθ b1,b2 b1sinθ,b2cosθ sin(θ+ϕ)
mas e representando a fase são estimados no ajuste do modelo. Dessa forma, evitamos um problema de estimativa não linear.sin φcosϕ sinϕ
Se usarmos para modelar a variação circular, automaticamente o máximo e o mínimo dessa curva estarão separados por meio círculo. Essa geralmente é uma aproximação muito boa para variações biológicas ou ambientais, mas, inversamente, podemos precisar de vários outros termos para capturar a sazonalidade econômica em particular. Essa poderia ser uma boa razão para usar variáveis indicadoras, o que leva imediatamente a interpretações simples dos coeficientes.b1sinθ+b2cosθ
fonte
Aqui está uma opção livre de distribuição, pois parece que é isso que você está procurando de qualquer maneira. Não é particular no campo das estatísticas circulares, das quais sou bastante ignorante, mas é aplicável aqui e em muitos outros contextos.
Deixe sua variável direcional ser .X
Deixe a outra variável ser , que pode estar em para qualquer (ou, de fato, qualquer tipo de objeto no qual um kernel útil possa ser definido: gráficos, seqüências de caracteres, imagens, distribuições de probabilidade, amostras de distribuições de probabilidade, ...).R d d ≥ 1Y Rd d≥1
Defina e suponha que você tenha observações .m z i = ( x i , y i )Z:=(X,Y) m zi=(xi,yi)
Agora, realize um teste usando o Critério de Independência de Hilbert Schmidt (HSIC), como no artigo a seguir:
Isso é:
Definir um kernel para . Aqui queremos dizer um núcleo no sentido de um método de núcleo , ou seja, um núcleo de um RKHS .Xk X
Defina um kernel para , da mesma forma. Para em o kernel gaussiano, acima, é um padrão razoável.l Y Y Rn
Deixe- , , e ser matrizes tal como , , e representa a matriz de centragem . Então a estatística de teste possui algumas boas propriedades quando usada como teste de independência. Sua distribuição nula pode ser aproximada por correspondência de momento com uma distribuição gama (computacionalmente eficiente) ou por bootstrapping (mais preciso para amostras pequenas).H K L m×m Kij=k(xi,xj) Lij=l(yi,yj) H H=I−1m11T 1m2tr(KHLH)
O código Matlab para realizar isso com os kernels RBF está disponível no primeiro autor aqui .
Essa abordagem é boa porque é geral e tende a ter um bom desempenho. As principais desvantagens são:
1. Isso é frequentemente usado como um kernel de suavização para dados circulares, mas em uma pesquisa rápida não encontrei ninguém usando-o como um kernel RKHS. No entanto, é definido positivamente pelo teorema de Bochner , uma vez que a forma invariável de deslocamento é proporcional ao pdf de uma distribuição de von Mises com média 0, cuja função característica é proporcional a uma distribuição uniforme em seu suporte. .
fonte
Você pode executar um teste t entre a média das "metades" opostas do período, por exemplo, comparando o valor médio das 12h às 12h com o valor médio das 12h às 12h. Em seguida, compare o valor médio das 18:00 às 18:00 com o valor médio das 18:00 às 18:00.
Ou, se você tiver dados suficientes, poderá dividir o período em segmentos menores (por exemplo, a cada hora) e executar um teste t entre cada par de segmentos, enquanto corrige várias comparações.
Como alternativa, para uma análise mais "contínua" (ou seja, sem segmentação arbitrária), você pode executar regressões lineares contra as funções seno e cosseno da sua variável direcional (com o período correto), que "circularizará" automaticamente seus dados:
O principal problema de qualquer abordagem desse tipo é que será difícil garantir que a fase do seu modelo esteja configurada para selecionar a correlação máxima; portanto, você pode precisar tentar várias fases diferentes ou selecionar a fase a olho para formular seu valor hipotético :a
No entanto, idealmente você deve formular sua hipótese (por exemplo, as tardes são mais ativos do que as manhãs) e, em seguida, definir o apropriado antes mesmo de olhar para os dados.a
EDIT: Um outro pensamento é que você pode executar uma regressão múltipla contra AMBAS as funções seno e cosseno da variável direcional, ao mesmo tempo (ou seja, entre o seu variável normal além de e ) como que deve levar em conta a verdadeira "direção", da mesma maneira que o seno e o cosseno funcionam juntos, definem as coordenadas x e y de um círculo completo. Então você não precisaria se preocupar com o problema de fase separadamente, pois isso seria resolvido automaticamente. Eu nunca vi isso feito antes, mas não vejo por que não deveria funcionar.x ′ x ″y x′ x′′
De qualquer forma, acho que você deve fazer algumas suposições sobre o período e depois testar de acordo.
fonte