Como faço para testar se duas variáveis ​​contínuas são independentes?

48

Suponhamos que temos uma amostra a partir da distribuição conjunta de X e Y . Como testo a hipótese de que X e Y são independentes ?(Xn,Yn),n=1..NXYXY

Nenhuma suposição é feita sobre as leis de distribuição conjunta ou marginal de e Y (menos de toda a normalidade conjunta, pois nesse caso a independência é idêntica à correlação sendo 0 ).XY0

Nenhuma suposição é feita sobre a natureza de um possível relacionamento entre e Y ; Como pode ser não linear, as variáveis não são correlacionadas ( r = 0 ), mas altamente co-dependentes ( I = H ).XYr=0I=H

Eu posso ver duas abordagens:

  1. Bin ambas variáveis ​​e use o teste exato de Fisher ou teste-G .

    • Pro: use testes estatísticos bem estabelecidos
    • Con: depende do binning
  2. Estime a dependência de e Y : I ( X ; Y )XYI(X;Y)H(X,Y) (este éparaXeYindependentese1quando eles se determinam completamente).0XY1

    • Pro: produz um número com um significado teórico claro
    • Con: depende do cálculo aproximado da entropia (ou seja, binning novamente)

Essas abordagens fazem sentido?

Que outros métodos as pessoas usam?

sds
fonte
3
Olhe para a correlação de distância .
precisa
@ RayKoopman: obrigado, estou lendo Medindo e testando dependência por correlação de distâncias agora!
Sds 24/13
2
I(X;Y)/H(X;Y)HXY
@onini: claro, eu estava falando sobre variáveis ​​binadas. Obrigado pelo seu comentário.
Sds

Respostas:

27

Este é um problema muito difícil em geral, embora suas variáveis ​​sejam aparentemente apenas 1d, o que ajuda. Obviamente, o primeiro passo (quando possível) deve ser o de plotar os dados e ver se algo aparece em você; você está em 2D, então isso deve ser fácil.

Rn

Dougal
fonte
Você pode mencionar brevemente como essas abordagens se comparam à correlação à distância ? Estou usando o DC para filtrar grandes conjuntos de dados (bem, grandes para mim), por isso estou interessado em quaisquer comentários que você possa ter. Obrigado!
Pteetor 25/10
11
@pteetor Isso é interessante, eu nunca tinha encontrado correlação de distância antes. Computacionalmente, parece mais caro do que a abordagem de estimativa de entropia para grandes tamanhos de amostra porque você precisa de matrizes de distância total (onde para os estimadores de entropia você pode usar índices para obter apenas os primeiros kvizinhos). Não faço ideia como ele se compara em termos de poder estatístico / etc
Dougal
4
Para leitores posteriores: O artigo de 2013 Equivalência de estatísticas baseadas em distância e RKHS em testes de hipóteses por Sejdinovic et al. mostra que a correlação de distância e outras distâncias de energia são exemplos particulares de MMD, a medida subjacente ao HSIC, e discute o relacionamento em termos de potência de teste e assim por diante.
Dougal
19

H0:H(x,y)=F(x)G(y)Hmischoeffd

Frank Harrell
fonte
6

Que tal este artigo:

http://arxiv.org/pdf/0803.4101.pdf

"Medição e teste de dependência por correlação de distâncias". Székely e Bakirov sempre têm coisas interessantes.

Há código matlab para a implementação:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

Se você encontrar outro teste (simples de implementar) para independência, informe-nos.

JLp
fonte
2
Bem-vindo ao site, @JLp. Esperamos construir um repositório permanente de informações estatísticas de alta qualidade na forma de perguntas e respostas. Como tal, uma coisa com a qual nos preocupamos é o linkrot. Com isso em mente, você se importaria em fornecer um resumo do que está nesse artigo / como ele responde às perguntas, caso o link desapareça. Também ajudará os futuros leitores deste tópico a decidir se desejam investir tempo para ler o artigo.
gung - Restabelece Monica
@gung: isso é o mesmo que energia
sds
5

A ligação entre a covariância à distância e os testes do kernel (com base no critério de independência de Hilbert-Schmidt) é apresentada no artigo:

Sejdinovic, D., Sriperumbudur, B., Gretton, A. e Fukumizu, K., Equivalência de estatísticas baseadas em distância e RKHS em testes de hipóteses, Annals of Statistics, 41 (5), pp.2263-2702, 2013

É mostrado que a covariância à distância é um caso especial da estatística do kernel, para uma família específica de kernels.

Se você pretende usar informações mútuas, um teste com base em uma estimativa em caixa do MI é:

Gretton, A. e Gyorfi, L., Testes não paramétricos consistentes de independência, Journal of Machine Learning Research, 11, pp.1391--1423, 2010.

Se você está interessado em obter o melhor poder de teste, é melhor usar os testes do kernel, em vez de agrupar e obter informações mútuas.

Dito isto, considerando que suas variáveis ​​são univariadas, provavelmente os testes de independência não paramétricos clássicos como os de Hoeffding.

Arthur Gretton
fonte
4

Raramente (nunca?) Nas estatísticas, você pode demonstrar que a estatística da sua amostra = um valor em pontos. Você pode testar os valores dos pontos e excluí-los ou não excluí-los. Mas a natureza das estatísticas é que se trata de examinar dados variáveis. Como sempre há variação, não haverá necessariamente maneira de saber que algo não está exatamente relacionado, normal, gaussiano etc. Você só pode conhecer uma gama de valores para isso. Você pode saber se um valor é excluído do intervalo de valores plausíveis. Por exemplo, é fácil excluir nenhum relacionamento e fornecer um intervalo de valores para o tamanho do relacionamento.

Portanto, tentando demonstrar nenhum relacionamento, essencialmente o valor do ponto relationship = 0não será alcançado com sucesso. Se você tiver uma série de medidas de relacionamento aceitáveis ​​como aproximadamente 0. Então, seria possível planejar um teste.

Supondo que você possa aceitar essa limitação, seria útil para as pessoas que tentam ajudá-lo a fornecer um gráfico de dispersão com uma curva de baixa. Como você está procurando soluções R, tente:

scatter.smooth(x, y)

Com base nas informações limitadas que você forneceu até agora, acho que um modelo aditivo generalizado pode ser a melhor coisa para testar a não independência. Se você traçar isso com os ICs em torno dos valores previstos, poderá fazer declarações sobre uma crença de independência. Confira gamno pacote mgcv. A ajuda é muito boa e há assistência aqui em relação ao IC .

John
fonte
2

Pode ser interessante ...

Garcia, JE; Gonzalez-Lopez, VA (2014) Testes de independência para variáveis ​​aleatórias contínuas com base na subsequência crescente mais longa. Revista de Análise Multivariada, v. 127 p. 126-146.

http://www.sciencedirect.com/science/article/pii/S0047259X14000335

user78122
fonte
2
Este post se beneficiaria de mais detalhes sobre o que está no artigo, especialmente por trás de um paywall.
Erik
-1

Se você usar R, a cor.testfunção no pacote de estatísticas (padrão em R) poderá fazer isso:

Teste de associação / correlação entre amostras emparelhadas. Teste de associação entre amostras emparelhadas, usando um dos coeficientes de correlação de momento do produto de Pearson, o tau de Kendall ou o rho de Spearman.

cor.test(x, y)
Shicheng Guo
fonte
Isso perde as relações não lineares que são explicitamente o tópico da questão.
sds