Mais recentemente, li dois artigos. O primeiro é sobre a história da correlação e o segundo é sobre o novo método chamado Maximal Information Coefficient (MIC). Preciso da sua ajuda para entender o método MIC para estimar correlações não lineares entre variáveis.
Além disso, as instruções para seu uso em R podem ser encontradas no site do autor (em Downloads ):
Espero que essa seja uma boa plataforma para discutir e entender esse método. Meu interesse em discutir uma intuição por trás desse método e como ele pode ser estendido, como disse o autor.
" ... precisamos de extensões de MIC (X, Y) para MIC (X, Y | Z). Queremos saber quantos dados são necessários para obter estimativas estáveis de MIC, quão suscetível é a outliers, quais são os três - ou relacionamentos de dimensões mais altas, que falta, e muito mais. O MIC é um grande passo à frente, mas há muitos outros passos a serem dados. "
Respostas:
Não é revelador que isso tenha sido publicado em um periódico não estatístico cuja avaliação pelos pares estatísticos não temos certeza? Esse problema foi resolvido por Hoeffding em 1948 (Annals of Mathematics Statistics 19: 546), que desenvolveu um algoritmo direto que não exigia binning nem várias etapas. O trabalho de Hoeffding nem foi mencionado no artigo da Science. Isso está na
hoeffd
função R doHmisc
pacote há muitos anos. Aqui está um exemplo (digiteexample(hoeffd)
R):hoeffd
usa uma implementação Fortran bastante eficiente do método de Hoeffding. A idéia básica de seu teste é considerar a diferença entre as classificações conjuntas de X e Y e o produto da classificação marginal de X e a classificação marginal de Y, adequadamente dimensionada.Atualizar
Desde então, tenho me correspondido com os autores (que são muito agradáveis por falar nisso, e estão abertos a outras idéias e continuam pesquisando seus métodos). Eles originalmente tinham a referência de Hoeffding em seus manuscritos, mas a cortaram (com arrependimentos, agora) por falta de espaço. Embora o teste de Hoeffding pareça ter um bom desempenho na detecção de dependência em seus exemplos, ele não fornece um índice que atenda aos critérios de ordenar graus de dependência da maneira como o olho humano é capaz.D
Em uma versão futura doD | F( x , y) - G ( x ) H( y) | D
Hmisc
pacote R , adicionei duas saídas adicionais relacionadas a , a média e a maxque são medidas úteis de dependência. No entanto, essas medidas, como , não têm a propriedade que os criadores de MIC estavam procurando.fonte
A idéia principal dos autores é discretizar os dados em várias grades bidimensionais diferentes e calcular pontuações normalizadas que representam as informações mútuas das duas variáveis em cada grade. As pontuações são normalizadas para garantir uma comparação justa entre grades diferentes e variam entre 0 (não correlacionado) e 1 (correlações altas).
fonte
Encontrei dois bons artigos explicando mais claramente a idéia do MIC, em particular este ; aqui o segundo .
Como entendi a partir dessas leituras, é possível aumentar o zoom para diferentes complexidades e escalas de relacionamento entre duas variáveis, explorando diferentes combinações de grades; essas grades são usadas para dividir o espaço bidimensional em células. Ao escolher a grade que contém mais informações sobre como as células particionam o espaço, você escolhe o MIC.
Gostaria de perguntar ao @mbq se ele poderia expandir o que ele chamou de "traçar todas as parcelas dispersas e atingir os picos com a maior área branca" e a complexidade irreal de O (M2).
fonte