Quanto ao título, a idéia é usar informações mútuas, aqui e depois do IM, para estimar a "correlação" (definida como "o quanto eu sei sobre A quando conheço B") entre uma variável contínua e uma variável categórica. Em breve, vou lhe contar sobre o assunto, mas antes de aconselhá-lo a ler essa outra pergunta / resposta no CrossValidated, pois ele contém algumas informações úteis.
Agora, como não podemos integrar sobre uma variável categórica, precisamos discretizar a contínua. Isso pode ser feito facilmente no R, que é a linguagem com a qual fiz a maioria das minhas análises. Eu preferi usar a cut
função, uma vez que ela também aliasa os valores, mas outras opções também estão disponíveis. O ponto é que é preciso decidir a priori o número de "posições" (estados discretos) antes que qualquer discretização possa ser feita.
O principal problema, no entanto, é outro: o MI varia de 0 a ∞, pois é uma medida não padronizada qual unidade é o bit. Isso torna muito difícil usá-lo como um coeficiente de correlação. Isso pode ser parcialmente resolvido usando o coeficiente de correlação global , aqui e depois do GCC, que é uma versão padronizada do MI; O GCC é definido da seguinte forma:
Referência: a fórmula é de Informação Mútua como Ferramenta Não Linear para Análise da Globalização do Mercado de Ações por Andreia Dionísio, Rui Menezes e Diana Mendes, 2010.
O CCG varia de 0 a 1 e, portanto, pode ser facilmente usado para estimar a correlação entre duas variáveis. Problema resolvido, certo? Bem, tipo isso. Como todo esse processo depende muito do número de 'lixeiras' que decidimos usar durante a discretização. Aqui estão os resultados dos meus experimentos:
No eixo y você tem GCC e no eixo x você tem o número de 'posições' que eu decidi usar para discretização. As duas linhas se referem a duas análises diferentes que eu conduzi em dois conjuntos de dados diferentes (embora muito semelhantes).
Parece-me que o uso do MI em geral e do GCC em particular ainda é controverso. No entanto, essa confusão pode ser o resultado de um erro do meu lado. Nesse caso, eu adoraria ouvir sua opinião sobre o assunto (também, você tem métodos alternativos para estimar a correlação entre uma variável categórica e uma contínua?).
fonte
Respostas:
Existe uma maneira mais simples e melhor de lidar com esse problema. Uma variável categórica é efetivamente apenas um conjunto de variáveis indicadoras. É uma idéia básica da teoria das medidas que tal variável seja invariável à nova rotulagem das categorias; portanto, não faz sentido usar a rotulação numérica das categorias em qualquer medida da relação entre outra variável (por exemplo, 'correlação') . Por esse motivo, a medida da relação entre uma variável contínua e uma variável categórica deve se basear inteiramente nas variáveis indicadoras derivadas dessa última.
que dá:
Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information onX then you could estimate the correlation vector directly by maximum likelihood or some other technique.
fonte