Usando informações mútuas para estimar a correlação entre uma variável contínua e uma variável categórica

Quanto ao título, a idéia é usar informações mútuas, aqui e depois do IM, para estimar a "correlação" (definida como "o quanto eu sei sobre A quando conheço B") entre uma variável contínua e uma variável categórica. Em breve, vou lhe contar sobre o assunto, mas antes de aconselhá-lo a ler essa outra pergunta / resposta no CrossValidated, pois ele contém algumas informações úteis.

Agora, como não podemos integrar sobre uma variável categórica, precisamos discretizar a contínua. Isso pode ser feito facilmente no R, que é a linguagem com a qual fiz a maioria das minhas análises. Eu preferi usar a cutfunção, uma vez que ela também aliasa os valores, mas outras opções também estão disponíveis. O ponto é que é preciso decidir a priori o número de "posições" (estados discretos) antes que qualquer discretização possa ser feita.

O principal problema, no entanto, é outro: o MI varia de 0 a ∞, pois é uma medida não padronizada qual unidade é o bit. Isso torna muito difícil usá-lo como um coeficiente de correlação. Isso pode ser parcialmente resolvido usando o coeficiente de correlação global , aqui e depois do GCC, que é uma versão padronizada do MI; O GCC é definido da seguinte forma:

insira a descrição da imagem aqui

Referência: a fórmula é de Informação Mútua como Ferramenta Não Linear para Análise da Globalização do Mercado de Ações por Andreia Dionísio, Rui Menezes e Diana Mendes, 2010.

O CCG varia de 0 a 1 e, portanto, pode ser facilmente usado para estimar a correlação entre duas variáveis. Problema resolvido, certo? Bem, tipo isso. Como todo esse processo depende muito do número de 'lixeiras' que decidimos usar durante a discretização. Aqui estão os resultados dos meus experimentos:

insira a descrição da imagem aqui

No eixo y você tem GCC e no eixo x você tem o número de 'posições' que eu decidi usar para discretização. As duas linhas se referem a duas análises diferentes que eu conduzi em dois conjuntos de dados diferentes (embora muito semelhantes).

Parece-me que o uso do MI em geral e do GCC em particular ainda é controverso. No entanto, essa confusão pode ser o resultado de um erro do meu lado. Nesse caso, eu adoraria ouvir sua opinião sobre o assunto (também, você tem métodos alternativos para estimar a correlação entre uma variável categórica e uma contínua?).

correlation information-theory mutual-information Edgar Derby
fonte

H (X_{i}, X_{j}) \leq H (X_{i}) + H (X_{j})

$H(X_i, X_j) \leq H(X_i) + H(X_j)$

BTW, aqui está o código, caso alguém queira tentar o método de binning.

Zkurtz 8/08

Você não está estimando "correlação". Você está estimando informações mútuas. Um não estima o outro; são medidas distintas do conceito mais geral de associação .

Zkurtz 08/08/19

Talvez um título melhor para este post seja "Como classificar melhor uma variável contínua para estimar suas informações mútuas com uma variável categórica?"

Zkurtz 8/08

Aqui está uma abordagem interessante não-binning. Infelizmente não consigo encontrar uma implementação de R.

Zkurtz 8/08

Respostas:

Existe uma maneira mais simples e melhor de lidar com esse problema. Uma variável categórica é efetivamente apenas um conjunto de variáveis indicadoras. É uma idéia básica da teoria das medidas que tal variável seja invariável à nova rotulagem das categorias; portanto, não faz sentido usar a rotulação numérica das categorias em qualquer medida da relação entre outra variável (por exemplo, 'correlação') . Por esse motivo, a medida da relação entre uma variável contínua e uma variável categórica deve se basear inteiramente nas variáveis indicadoras derivadas dessa última.

$X$ $I$ $\phi \equiv \mathbb{P}(I=1)$

C o v (Eu, X) = E (Eu X) - E (Eu) E (X) = ϕ [E (X | Eu = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

que dá:

C o r r (Eu, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | Eu = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$X$ $I$ $\phi$ $X$ $I=1$

$C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C o r r (I_{k}, X) = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E (X | C = k) - E (X)}{S (X)} .

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

$\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

$(x_1, c_1), ..., (x_n, c_n)$

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information on $X$ then you could estimate the correlation vector directly by maximum likelihood or some other technique.

Reinstate Monica
fonte