O algoritmo MIC para detectar correlações não lineares pode ser explicado intuitivamente?

20

Mais recentemente, li dois artigos. O primeiro é sobre a história da correlação e o segundo é sobre o novo método chamado Maximal Information Coefficient (MIC). Preciso da sua ajuda para entender o método MIC para estimar correlações não lineares entre variáveis.

Além disso, as instruções para seu uso em R podem ser encontradas no site do autor (em Downloads ):

Espero que essa seja uma boa plataforma para discutir e entender esse método. Meu interesse em discutir uma intuição por trás desse método e como ele pode ser estendido, como disse o autor.

" ... precisamos de extensões de MIC (X, Y) para MIC (X, Y | Z). Queremos saber quantos dados são necessários para obter estimativas estáveis ​​de MIC, quão suscetível é a outliers, quais são os três - ou relacionamentos de dimensões mais altas, que falta, e muito mais. O MIC é um grande passo à frente, mas há muitos outros passos a serem dados. "

Biostat
fonte
A pergunta é interessante, mas acho que não é possível responder. Você pode torná-lo mais específico?
mpiktas
3
A discussão será dificultada pelo fato de o artigo na Science não ser de acesso aberto.
Itamar
7
Aqui está uma cópia do artigo liberada por um dos autores.
10
Em suma, MIC é uma escavação da velha idéia de "traçar todos os gráficos de dispersão e atingir os picos com a maior área branca"; portanto, produz principalmente falsos positivos, tem uma complexidade irreal de (que os autores se escondem atrás da heurística de teste apenas alguns pares selecionados aleatoriamente) e o design não atende a todas as interações com três e mais variáveis. O(M2)
4
Para detalhes técnicos sobre o MIC, o Material on-line de suporte é mais informativo do que o próprio artigo.
res

Respostas:

22

Não é revelador que isso tenha sido publicado em um periódico não estatístico cuja avaliação pelos pares estatísticos não temos certeza? Esse problema foi resolvido por Hoeffding em 1948 (Annals of Mathematics Statistics 19: 546), que desenvolveu um algoritmo direto que não exigia binning nem várias etapas. O trabalho de Hoeffding nem foi mencionado no artigo da Science. Isso está na hoeffdfunção R do Hmiscpacote há muitos anos. Aqui está um exemplo (digite example(hoeffd)R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdusa uma implementação Fortran bastante eficiente do método de Hoeffding. A idéia básica de seu teste é considerar a diferença entre as classificações conjuntas de X e Y e o produto da classificação marginal de X e a classificação marginal de Y, adequadamente dimensionada.

Atualizar

Desde então, tenho me correspondido com os autores (que são muito agradáveis ​​por falar nisso, e estão abertos a outras idéias e continuam pesquisando seus métodos). Eles originalmente tinham a referência de Hoeffding em seus manuscritos, mas a cortaram (com arrependimentos, agora) por falta de espaço. Embora o teste de Hoeffding pareça ter um bom desempenho na detecção de dependência em seus exemplos, ele não fornece um índice que atenda aos critérios de ordenar graus de dependência da maneira como o olho humano é capaz.D

Em uma versão futura do Hmiscpacote R , adicionei duas saídas adicionais relacionadas a , a média e a maxque são medidas úteis de dependência. No entanto, essas medidas, como , não têm a propriedade que os criadores de MIC estavam procurando.D|F(x,y)-G(x)H(y)|D

Frank Harrell
fonte
6
(+1) O artigo de Hoeffding está disponível online.
res
1
Bom achado. Pode valer a pena uma breve nota para a Science comparar o desempenho de Hoeffding com o deles. É uma pena que muitos bons estudos (em muitos campos) dos anos 50 tenham sido esquecidos ao longo dos anos.
Itamar
6

MEu=H(X)+H(Y)-H(X,Y)
H(X)=-Eup(zEu)registrop(zEu)
H(X,Y)=-Eu,jp(xEu,yj)registrop(xEu,yj)

A idéia principal dos autores é discretizar os dados em várias grades bidimensionais diferentes e calcular pontuações normalizadas que representam as informações mútuas das duas variáveis ​​em cada grade. As pontuações são normalizadas para garantir uma comparação justa entre grades diferentes e variam entre 0 (não correlacionado) e 1 (correlações altas).

R2

Itamar
fonte
3

Encontrei dois bons artigos explicando mais claramente a idéia do MIC, em particular este ; aqui o segundo .

Como entendi a partir dessas leituras, é possível aumentar o zoom para diferentes complexidades e escalas de relacionamento entre duas variáveis, explorando diferentes combinações de grades; essas grades são usadas para dividir o espaço bidimensional em células. Ao escolher a grade que contém mais informações sobre como as células particionam o espaço, você escolhe o MIC.

Gostaria de perguntar ao @mbq se ele poderia expandir o que ele chamou de "traçar todas as parcelas dispersas e atingir os picos com a maior área branca" e a complexidade irreal de O (M2).

pedrosaurio
fonte
4
Preocupo-me com qualquer método estatístico que use binning.
Frank Harrell
@FrankHarrell Você pode fornecer referências ou alguma intuição que detalham por que o binning é ruim? Intuitivamente, percebo que você está essencialmente descartando informações devido à restrição, mas deve haver mais motivos para isso?
precisa saber é o seguinte
Existem muitas referências para saber por onde começar. Nenhum método estatístico baseado em binning finalmente sobrevive. A arbitragem é um dos muitos problemas.
30516 Frank Harrell
@FrankHarrell Aprecie o comentário. A razão pela qual pedi referências é que eu sou um estudante de doutorado e estou estudando conceitos de dependência e dependência multivariada agora, e gostaria de ler esses artigos e citá-los em meus próprios trabalhos no futuro. Se você puder mencionar um ou dois de destaque, tenho certeza de que posso encontrar os restantes que você está mencionando. Também farei algumas escavações e postarei referências aqui se encontrar boas.
Kiran K.
Comece com citeulike.org/user/harrelfe/article/13265458 e veja outras informações sobre dicotomização em biostat.mc.vanderbilt.edu/CatContinuous . Para uma medida geral de dependência não requerendo qualquer binning Não perca citeulike.org/user/harrelfe/article/13264312
Frank Harrell