Não existe o melhor número de posições para estimar informações mútuas (MI) com histogramas. A melhor maneira é escolhê-lo via validação cruzada, se puder, ou confiar em uma regra de ouro. Esta é a razão pela qual muitos outros estimadores de IM que não são baseados em histogramas foram propostos.
O número de posições dependerá do número total de pontos de dados . Você deve evitar muitos compartimentos para evitar erros de estimativa para a distribuição conjunta entre as duas variáveis. Você também deve evitar muito poucos compartimentos para poder capturar o relacionamento entre as duas variáveis. Dado que gera um histograma 2D com compartimentos de largura igual para ambos e eu escolheria pessoalmente:
Nesse caso, em média, para duas variáveis aleatórias distribuídas uniformemente, você terá pelo menos pontos para cada célula do histograma:
nnp.histogram2d(x, y, D)
D
x
y
D=⌊n/5−−−√⌋
5nDXDY≥5⇒nD2≥5⇒D2≤n/5⇒D=⌊n/5−−−√⌋
Essa é uma opção possível que simula a abordagem de particionamento adaptativo proposta em
(Cellucci, 2005) . A última abordagem é frequentemente usada para estimar o IM para inferir redes genéticas: por exemplo, no
MIDER .
Se você tiver muitos pontos de dados nenhum valor em falta, não se preocupe muito em encontrar o melhor número de posições; por exemplo, se . Se não for esse o caso, considere corrigir o MI para amostras finitas. (Steuer et al., 2002) discute alguma correção para o MI para a tarefa de inferência de redes genéticas.nn=100,000
Estimar o número de posições para um histograma é um problema antigo. Você pode estar interessado nesta palestra de Lauritz Dieckman sobre a estimativa do número de caixas para MI. Essa palestra é baseada em um capítulo do livro de Mike X Cohen sobre séries temporais neurais.
Você pode escolher e independente e usar a regra geral usada para estimar o número de posições nos histogramas 1D.DXDY
Regra de Freedman-Diaconis (sem suposição sobre a distribuição):
onde é a diferença entre o quantil 75 e o quantil 25. Veja esta questão relacionada no SE .
DX=⌈maxX−minX2⋅IQR⋅n−1/3⌉
IQR
Regra de Scott (suposição de normalidade):
que é o desvio padrão para .
DX=⌈maxX−minX3.5⋅sX⋅n−1/3⌉
sXX
Regra de (pode subestimar o número de posições, mas é bom para grandes ):
n
DX=⌈1+log2n⌉
É difícil estimar corretamente o IM com histogramas. Você pode então escolher um estimador diferente:
- O estimador NN de Kraskov , que é um pouco menos sensível à escolha de parâmetros: ou vizinhos mais próximos é frequentemente usado como padrão. Artigo : (Kraskov, 2003)kk=4k=6
- Estimativa de MI com Kernels (Moon, 1995) .
Existem muitos pacotes para estimar o MI:
- Caixa de ferramentas de estimativa de entropia não paramétrica para Python. site .
- Kit de ferramentas de dinâmica da informação em Java, mas também disponível para Python. site .
- Caixa de ferramentas ITE no Matlab. site .