Eu já vi algumas conversas de não estatísticos em que eles parecem reinventar medidas de correlação usando informações mútuas em vez de regressão (ou testes estatísticos equivalentes / intimamente relacionados).
Entendo que há uma boa razão pela qual os estatísticos não adotam essa abordagem. Meu entendimento do leigo é que os estimadores de entropia / informação mútua tendem a ser problemáticos e instáveis. Presumo que o poder também seja problemático como resultado: eles tentam contornar isso alegando que não estão usando uma estrutura de teste paramétrica. Normalmente, esse tipo de trabalho não se preocupa com cálculos de potência, nem mesmo com intervalos de confiança / credibilidade.
Mas, para assumir a posição de advogado do diabo, a convergência lenta é tão grande quando os conjuntos de dados são extremamente grandes? Além disso, algumas vezes esses métodos parecem "funcionar" no sentido de que as associações são validadas por estudos de acompanhamento. Qual é a melhor crítica contra o uso de informações mútuas como medida de associação e por que não é amplamente usada na prática estatística?
edit: Além disso, existem bons documentos que cobrem essas questões?
fonte
Respostas:
Eu acho que você deve distinguir entre dados categóricos (discretos) e dados contínuos.
Para dados contínuos, a correlação de Pearson mede uma relação linear (monotônica) e a correlação de classificação uma relação monotônica.
O MI, por outro lado, "detecta" qualquer relacionamento. Normalmente, não é disso que você está interessado e / ou é provável que seja ruído. Em particular, você deve estimar a densidade da distribuição. Mas, como é contínuo, você primeiro cria um histograma [caixas discretas] e depois calcula o MI. Porém, como o MI permite qualquer relacionamento, o MI mudará conforme você usar caixas menores (ou seja, para permitir mais manobras). Portanto, você pode ver que a estimativa do IM será muito instável, não permitindo que você coloque intervalos de confiança na estimativa etc. o MI.
Os dados categóricos, por outro lado, se encaixam perfeitamente na estrutura do MI (consulte o teste G) e não há muito o que escolher entre o teste G e o qui-quadrado.
fonte