Suponhamos que temos uma amostra a partir da distribuição conjunta de X e Y . Como testo a hipótese de que X e Y são independentes ?
Nenhuma suposição é feita sobre as leis de distribuição conjunta ou marginal de e Y (menos de toda a normalidade conjunta, pois nesse caso a independência é idêntica à correlação sendo 0 ).
Nenhuma suposição é feita sobre a natureza de um possível relacionamento entre e Y ; Como pode ser não linear, as variáveis não são correlacionadas ( r = 0 ), mas altamente co-dependentes ( I = H ).
Eu posso ver duas abordagens:
Bin ambas variáveis e use o teste exato de Fisher ou teste-G .
- Pro: use testes estatísticos bem estabelecidos
- Con: depende do binning
Estime a dependência de e Y : I ( X ; Y ) (este éparaXeYindependentese1quando eles se determinam completamente).
- Pro: produz um número com um significado teórico claro
- Con: depende do cálculo aproximado da entropia (ou seja, binning novamente)
Essas abordagens fazem sentido?
Que outros métodos as pessoas usam?
Respostas:
Este é um problema muito difícil em geral, embora suas variáveis sejam aparentemente apenas 1d, o que ajuda. Obviamente, o primeiro passo (quando possível) deve ser o de plotar os dados e ver se algo aparece em você; você está em 2D, então isso deve ser fácil.
Como você mencionou, estime informações mútuas por meio de entropias. Esta pode ser sua melhor opção; os estimadores baseados em vizinhos mais próximos se saem bem em baixas dimensões, e até os histogramas não são terríveis em 2D. Se você estiver preocupado com um erro de estimativa, esse estimador é simples e fornece limites de amostra finita (a maioria dos outros apenas prova propriedades assintóticas):
Como alternativa, existem estimadores diretos semelhantes para informações mútuas, por exemplo
O critério de independência de Hilbert-Schmidt: uma abordagem baseada no kernel (no sentido de RKHS, não no KDE).
A abordagem de Schweizer-Wolff: baseada em transformações de cópula e, portanto, é invariante para transformações crescentes monótonas. Não estou muito familiarizado com este, mas acho que é computacionalmente mais simples, mas também talvez menos poderoso.
fonte
k
vizinhos). Não faço ideia como ele se compara em termos de poder estatístico / etcHmisc
hoeffd
fonte
Que tal este artigo:
http://arxiv.org/pdf/0803.4101.pdf
"Medição e teste de dependência por correlação de distâncias". Székely e Bakirov sempre têm coisas interessantes.
Há código matlab para a implementação:
http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation
Se você encontrar outro teste (simples de implementar) para independência, informe-nos.
fonte
A ligação entre a covariância à distância e os testes do kernel (com base no critério de independência de Hilbert-Schmidt) é apresentada no artigo:
Sejdinovic, D., Sriperumbudur, B., Gretton, A. e Fukumizu, K., Equivalência de estatísticas baseadas em distância e RKHS em testes de hipóteses, Annals of Statistics, 41 (5), pp.2263-2702, 2013
É mostrado que a covariância à distância é um caso especial da estatística do kernel, para uma família específica de kernels.
Se você pretende usar informações mútuas, um teste com base em uma estimativa em caixa do MI é:
Gretton, A. e Gyorfi, L., Testes não paramétricos consistentes de independência, Journal of Machine Learning Research, 11, pp.1391--1423, 2010.
Se você está interessado em obter o melhor poder de teste, é melhor usar os testes do kernel, em vez de agrupar e obter informações mútuas.
Dito isto, considerando que suas variáveis são univariadas, provavelmente os testes de independência não paramétricos clássicos como os de Hoeffding.
fonte
Raramente (nunca?) Nas estatísticas, você pode demonstrar que a estatística da sua amostra = um valor em pontos. Você pode testar os valores dos pontos e excluí-los ou não excluí-los. Mas a natureza das estatísticas é que se trata de examinar dados variáveis. Como sempre há variação, não haverá necessariamente maneira de saber que algo não está exatamente relacionado, normal, gaussiano etc. Você só pode conhecer uma gama de valores para isso. Você pode saber se um valor é excluído do intervalo de valores plausíveis. Por exemplo, é fácil excluir nenhum relacionamento e fornecer um intervalo de valores para o tamanho do relacionamento.
Portanto, tentando demonstrar nenhum relacionamento, essencialmente o valor do ponto
relationship = 0
não será alcançado com sucesso. Se você tiver uma série de medidas de relacionamento aceitáveis como aproximadamente 0. Então, seria possível planejar um teste.Supondo que você possa aceitar essa limitação, seria útil para as pessoas que tentam ajudá-lo a fornecer um gráfico de dispersão com uma curva de baixa. Como você está procurando soluções R, tente:
Com base nas informações limitadas que você forneceu até agora, acho que um modelo aditivo generalizado pode ser a melhor coisa para testar a não independência. Se você traçar isso com os ICs em torno dos valores previstos, poderá fazer declarações sobre uma crença de independência. Confira
gam
no pacote mgcv. A ajuda é muito boa e há assistência aqui em relação ao IC .fonte
Pode ser interessante ...
Garcia, JE; Gonzalez-Lopez, VA (2014) Testes de independência para variáveis aleatórias contínuas com base na subsequência crescente mais longa. Revista de Análise Multivariada, v. 127 p. 126-146.
http://www.sciencedirect.com/science/article/pii/S0047259X14000335
fonte
Se você usar R, a
cor.test
função no pacote de estatísticas (padrão em R) poderá fazer isso:Teste de associação / correlação entre amostras emparelhadas. Teste de associação entre amostras emparelhadas, usando um dos coeficientes de correlação de momento do produto de Pearson, o tau de Kendall ou o rho de Spearman.
fonte