Informação mútua versus correlação

Respostas:

77

Vamos considerar um conceito fundamental de correlação (linear), covariância (que é o coeficiente de correlação de Pearson "não padronizado"). Para duas variáveis ​​aleatórias discretas e Y com funções de massa de probabilidade p ( x ) , p ( y ) e pmf conjunta p ( x , y ) , temosXYp(x)p(y)p(x,y)

Cov(X,Y)=E(XY)E(X)E(Y)=x,yp(x,y)xy(xp(x)x)(yp(y)y)

Cov(X,Y)=x,y[p(x,y)p(x)p(y)]xy

A informação mútua entre os dois é definida como

I(X,Y)=E(lnp(x,y)p(x)p(y))=x,yp(x,y)[lnp(x,y)lnp(x)p(y)]

Cov(X,Y)I(X,Y)

Cov(X,Y)I(X,Y)

Cov(X,Y)I(X,Y)

I(X,Y)Cov(X,Y)

Portanto, os dois não são antagônicos - são complementares, descrevendo diferentes aspectos da associação entre duas variáveis ​​aleatórias. Pode-se comentar que a informação mútua "não está preocupada" se a associação é linear ou não, enquanto a covariância pode ser zero e as variáveis ​​ainda podem ser estocásticas dependentes. Por outro lado, a covariância pode ser calculada diretamente de uma amostra de dados sem a necessidade de realmente conhecer as distribuições de probabilidade envolvidas (já que é uma expressão que envolve momentos da distribuição), enquanto a Informação Mútua requer conhecimento das distribuições, cuja estimativa, se desconhecido, é um trabalho muito mais delicado e incerto comparado à estimativa de covariância.

Alecos Papadopoulos
fonte
@ Alecos Papadopoulos; Obrigado pela sua resposta abrangente.
SaZa
11
Eu estava me perguntando a mesma pergunta, mas não entendi completamente a resposta. @ Alecos Papadopoulos: Eu entendi que a dependência medida não é a mesma, tudo bem. Então, para que tipo de relações entre X e Y devemos preferir informações mútuas I (X, Y) ao invés de Cov (X, Y)? Recentemente, tive um exemplo estranho, em que Y era quase linearmente dependente de X (era quase uma linha reta em um gráfico de dispersão) e Corr (X, Y) era igual a 0,87 enquanto I (X, Y) era igual a 0,45 . Então, há claramente alguns casos em que um indicador deve ser escolhido sobre o outro? Obrigado por ajudar!
Gandhi91
XH(X)
Esta é uma resposta ótima e muito clara. Eu queria saber se você tem um exemplo prontamente disponível onde cov é 0, mas pmi não é.
thang
@thang. Na verdade não. Deve-se encontrar um exemplo em que a covariância seja zero e, ao mesmo tempo, tenha a distribuição conjunta disponível, para calcular as informações mútuas (e a distribuição conjunta não seria o produto dos marginais, porque queremos que as variáveis ​​não sejam independente).
Alecos Papadopoulos
7

Informação mútua é uma distância entre duas distribuições de probabilidade. Correlação é uma distância linear entre duas variáveis ​​aleatórias.

Você pode ter uma informação mútua entre duas probabilidades definidas para um conjunto de símbolos, enquanto não pode ter uma correlação entre símbolos que não podem ser mapeados naturalmente em um espaço R ^ N.

Por outro lado, as informações mútuas não fazem suposições sobre algumas propriedades das variáveis ​​... Se você estiver trabalhando com variáveis ​​suaves, a correlação pode lhe dizer mais sobre elas; por exemplo, se o relacionamento deles é monotônico.

Se você tiver alguma informação prévia, poderá mudar de um para outro; nos registros médicos, é possível mapear os símbolos "possui o genótipo A" como 1 e "não possui o genótipo A" nos valores 0 e 1 e ver se isso tem alguma forma de correlação com uma doença ou outra. Da mesma forma, você pode pegar uma variável contínua (ex: salário), convertê-la em categorias discretas e calcular as informações mútuas entre essas categorias e outro conjunto de símbolos.

Pau Vilimelis Aceituno
fonte
A correlação não é uma função linear. Deveria dizer que a correlação é uma medida da relação linear entre variáveis ​​aleatórias?
Matthew Gunn
11
Penso que: "Você pode ter uma informação mútua entre duas probabilidades definidas para um conjunto de símbolos, enquanto não pode ter uma correlação entre símbolos que não podem ser mapeados naturalmente em um espaço R ^ N" provavelmente é a chave. Corr não faz sentido se você não tiver uma variável aleatória completa; no entanto, o pmi faz sentido mesmo com apenas o pdf e o sigma (o espaço). É por isso que em muitas aplicações em que os RVs não fazem sentido (por exemplo, PNL), o pmi é usado.
thang
6

Aqui está um exemplo.

Nessas duas parcelas, o coeficiente de correlação é zero. Mas podemos obter alta informação mútua compartilhada, mesmo quando a correlação é zero.

No primeiro, vejo que, se eu tenho um valor alto ou baixo de X, provavelmente recebo um valor alto de Y. Mas se o valor de X for moderado, eu tenho um valor baixo de Y. O primeiro gráfico contém informações sobre as informações mútuas compartilhadas por X e Y. No segundo gráfico, X não me diz nada sobre Y.

Informações mútuas versus correlação

dennislendrem
fonte
4

Embora ambos sejam uma medida de relacionamento entre recursos, o IM é mais geral do que o coeficiente de correlação (CE), pois o CE só pode levar em conta relacionamentos lineares, mas o MI também pode lidar com relacionamentos não lineares.

Hossein9
fonte
Isso não é verdade. O coeficiente de correlação de Pearson assume normalidade e linearidade de duas variáveis ​​aleatórias, alternativas como as de Spearman não paramétricas não. Somente a monotonicidade entre os dois rvs é assumida.
meow