Correlação de distância versus informação mútua

15

Eu trabalho com as informações mútuas há algum tempo. Mas encontrei uma medida muito recente no "mundo da correlação" que também pode ser usada para medir a independência da distribuição, a chamada "correlação à distância" (também denominada correlação browniana): http://en.wikipedia.org/wiki/Brownian_covariance . Eu verifiquei os papéis onde esta medida é introduzida, mas sem encontrar nenhuma alusão às informações mútuas.

Então, minhas perguntas são:

  • Eles resolvem exatamente o mesmo problema? Caso contrário, como os problemas são diferentes?
  • E se a pergunta anterior puder ser respondida de forma positiva, quais são as vantagens de usar uma ou outra?
dsign
fonte
Tente escrever explicitamente 'correlação à distância' e 'informação mútua' para um exemplo simples. No segundo caso, você receberá logaritmos, enquanto no primeiro - não.
Piotr Migdal
@PiotrMigdal Sim, estou ciente dessa diferença. Você poderia explicar por que isso é importante? Por favor, leve em consideração que eu não sou estatístico ... #
1180
Para uma ferramenta padrão, medir a dependência mútua das distribuições de probabilidade é a informação mútua. Possui muitas propriedades agradáveis ​​e sua interpretação é direta. No entanto, pode haver problemas específicos nos quais a correlação à distância é preferida (mas nunca a usei na minha vida). Então, qual é o problema que você está tentando resolver?
Piotr Migdal
2
Este comentário está atrasado alguns anos, mas o Departamento de Estatística da Columbia University fez do ano acadêmico 2013-2014 um ano de foco nas medidas de dependência. Em abril e maio de 2014, foi realizado um workshop que reuniu os principais acadêmicos que trabalham neste campo, incluindo os Irmãos Reshef (MIC), Gabor Szekely (correlações à distância), Subhadeep Mukhopadhay, entre outros. Aqui está um link para o programa que inclui muitos PDFs das apresentações. Dependence2013.wikischolars.columbia.edu/…
Mike Hunter

Respostas:

9

Informação / informação mútua não depende dos valores possíveis, depende apenas das probabilidades, portanto, é menos sensível. A correlação de distância é mais poderosa e mais simples de calcular. Para uma comparação, consulte

http://www-stat.stanford.edu/~tibs/reshef/comment.pdf

gabor J Szekely
fonte
2
Oi, obrigado pela sua resposta! O artigo a que você se refere é sobre MIC, que acredito ser um pouco mais que MI. Eu implementei a medida de correlação à distância e não acho que seja mais simples que o MI para o caso elementar de variáveis ​​categóricas discretas. Novamente, uma coisa que aprendi é que o DCM está bem definido e se comporta para variáveis ​​contínuas, mas com o MI você precisa fazer binning ou coisas sofisticadas no MIC.
dsign 24/02
3
No entanto, o DCM parece precisar de matrizes quadradas cujo lado é o número de amostras. Em outras palavras, a complexidade do espaço escala quadraticamente. Ou pelo menos essa é a minha impressão, eu gostaria de estar enganado. O MIC funciona melhor, porque você pode ajustá-lo em algum tipo de compromisso entre precisão e desempenho.
DSIGN