Como calcular a divergência Kullback-Leibler quando o PMF contém 0s?

Eu tenho as seguintes séries temporais

insira a descrição da imagem aqui

obtido usando os dados postados abaixo.

Para um tamanho de janela deslizante de 10, estou tentando calcular a divergência KL entre o PMF de valores na janela deslizante atual e o PMF da história com o objetivo final de traçar o valor da divergência KL ao longo do tempo para que eu pode comparar duas séries temporais.

A partir de agora, há um problema conceitual que estou enfrentando (o qual explicarei usando o Python):

In [228]: samples = [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1]

# In reality this 10 should be 20 because that is the max value I have seen in the timeseries
In [229]: bins = scipy.linspace(0, 10, 21) 
In [230]: bins
Out[230]:
array([  0. ,   0.5,   1. ,   1.5,   2. ,   2.5,   3. ,   3.5,   4. ,
         4.5,   5. ,   5.5,   6. ,   6.5,   7. ,   7.5,   8. ,   8.5,
         9. ,   9.5,  10. ])
In [231]: scipy.histogram(samples, bins=bins, density=True)
Out[231]:
(array([ 1.63636364,  0.        ,  0.36363636,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.        ]),
 array([  0. ,   0.5,   1. ,   1.5,   2. ,   2.5,   3. ,   3.5,   4. ,
         4.5,   5. ,   5.5,   6. ,   6.5,   7. ,   7.5,   8. ,   8.5,
         9. ,   9.5,  10. ]))

O problema é que o resultado PMFcontém 0s, de modo que não posso realmente múltiplos dois PMFs para obter a divergência KL. Alguém pode me dizer como mitigar esse problema?

Dados

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 4 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 2 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 2 0 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

time-series probability multivariate-analysis histogram kullback-leibler lenda
fonte

Respostas:

Um truque padrão para lidar com esse problema é usar o que é chamado de correção de Laplace. Com efeito, você adiciona uma "contagem" a todos os compartimentos e renormaliza. Também existem boas razões para adicionar uma contagem de 0,5: esse estimador em particular é chamado de estimador de Krichevsky-Trofimov .

Suresh Venkatasubramanian
fonte

Uma maneira de pensar sobre o seu problema é que você realmente não confia no PMF que calculou a partir do histograma. Você pode precisar de um pouco de antecedência no seu modelo. Como se você estivesse confiante no PMF, a divergência de KL deveria ser infinita, pois você obteve valores em um PMF que são impossíveis no outro PMF. Se, por outro lado, você teve um leve e pouco informativo anterior, sempre há uma pequena probabilidade de obter um determinado resultado. Uma maneira de introduzir isso seria adicionar um vetor vezes mais escalar ao histograma. A distribuição teórica prévia que você usaria é a distribuição dirichlet , que é o conjugado anterior à distribuição categórica . Mas, para fins práticos, você pode fazer algo como

pmf_unnorm = scipy.histogram(samples, bins=bins, density=True)[0] +  w * scipy.ones(len(bins)-1)
pmf = pmf_unnor / sum(pmf_unnorm)

onde westá um peso positivo, dependendo da força que você deseja ter antes.

alta largura de banda
fonte

+1 pelo seu tempo e resposta. Obrigado. Eu tenho lido sobre isso nas últimas 8 horas e parece que preciso adicionar um antes para contornar isso. No entanto, não consigo encontrar uma referência adequada que explique esse fato. Isso é algo óbvio na comunidade de estatísticas ou você conhece uma referência que aponta esse requisito para divergência de KL?

Legend

Eu agruparia os dados para que você possa comparar os dois PMFs; dadas duas estimativas do PMF $\hat P$ e $\hat Q$ , você pode calcular o KLD simplesmente como: $D_{KL}(\hat P \| \hat Q) \equiv \sum_i \hat P(i) \log \dfrac{\hat P(i)}{\hat Q(i)}$ , onde corro sobre as caixas. $i$

Desculpe, eu não sei R.

Emre
fonte

+1 pelo seu tempo. Atualizei minha pergunta com o problema que estou enfrentando com esta fórmula. Não consigo entender como resolver esse problema quando os PMFs contêm 0s. Você teria algum comentário sobre como mitigar esse problema?

Legend

O zero indica a ausência de dados ou é um valor válido? Se o primeiro, você simplesmente o ignoraria. Nesse último caso, você pode dedicar um dos compartimentos ao valor zero.

Emre

Como se trata de uma série temporal, em alguns casos, havia zero eventos e, em alguns, havia dados ausentes, então adicionei zero para substituir o valor ausente. Você traz um ponto interessante: posso ignorar valores em uma série temporal, caso estejam faltando? Isso não seria fatal?

Legend

Eu reteria os zeros selecionando os elementos na janela em movimento, mas os desconsideraria para fins de cálculo do KLD.

Emre

Entendido. Obrigado! Aceito como resposta. Minha última pergunta seria sobre uma métrica relacionada chamada divergência "Jensen-Shannon". Encontrei essa métrica por acaso, mas essa métrica não parece ter um requisito de continuidade absoluta. Alguma sugestão?

Legend