Depois de muita pesquisa cruzada validada, ainda não me sinto mais perto de entender a divergência entre KL fora do campo da teoria da informação. É bastante estranho, como alguém com formação em matemática, achar muito mais fácil entender a explicação da teoria da informação.
Para delinear meu entendimento a partir de um histórico da teoria da informação: se tivermos uma variável aleatória com um número finito de resultados, existe uma codificação ideal que nos permite comunicar o resultado com outra pessoa com, em média, a mensagem mais curta (acho mais fácil imagem em termos de bits). A duração esperada da mensagem que seria necessária para comunicar o resultado é dada por
Eu gosto dessa explicação, porque lida intuitivamente com a assimetria da divergência de KL. Se tivermos dois sistemas diferentes, ou seja, duas moedas carregadas com carga diferente, elas terão codificações ótimas diferentes. De alguma forma, não sinto instintivamente que usar a codificação do segundo sistema para o primeiro é "igualmente ruim" para usar a codificação do primeiro sistema para o segundo. Sem passar pelo processo de pensamento de como me convenci, agora estou bastante feliz que
No entanto, a maioria das definições de divergência de KL, incluindo a Wikipedia, faz a afirmação (mantendo-a em termos discretos para que possa ser comparada com a interpretação da teoria da informação que funciona muito melhor em termos discretos, pois os bits são discretos) que, se tivermos duas probabilidades distintas distribuições, a KL fornece algumas métricas de "quão diferentes elas são". Ainda estou para ver uma única explicação de como esses dois conceitos estão relacionados. Parece que me lembro em seu livro sobre inferência, Dave Mackay aponta como a compactação e inferência de dados são basicamente a mesma coisa, e suspeito que minha pergunta esteja realmente relacionada a isso.
Independentemente de ser ou não, o tipo de pergunta que tenho em mente é sobre problemas de inferência. (Mantendo as coisas discretas), se tivermos duas amostras radioativas, e sabemos que uma delas é um determinado material com radioatividade conhecida (isso é física dúbia, mas vamos fingir que o universo funciona assim) e, assim, sabemos a distribuição "verdadeira" dos cliques radioativos que devemos medir devem ser poissonianos com conhecido , é justo criar uma distribuição empírica para ambas as amostras e comparar suas divergências KL com a distribuição conhecida e dizer que menor é mais provável que seja esse material?
Afastar-me da física duvidosa, se eu souber que duas amostras são extraídas da mesma distribuição, mas eu sei que não são selecionadas aleatoriamente, compararia suas divergências de KL com a conhecida distribuição global, dando-me uma ideia de "quão tendenciosa" as amostras são , em relação a um e outro, afinal?
E, finalmente, se a resposta para as perguntas anteriores for sim, então por quê? É possível entender essas coisas apenas do ponto de vista estatístico, sem fazer nenhuma conexão (possivelmente tênue) à teoria da informação?
Respostas:
Existe uma abordagem puramente estatística para a divergência de Kullback-Leibler: pegue uma amostra iid de uma distribuição desconhecida p ⋆ e considere o ajuste potencial por uma família de distribuições, F = { p θX1,…,Xn p⋆ A probabilidade correspondente é definida como
L ( θ | x 1 , … , x n ) = n ∏ i = 1 p θ ( x
Um livro que conecta divergência, teoria da informação e inferência estatística é a estimativa ótima de parâmetros de Rissanen , que revi aqui .
fonte
Aqui está uma interpretação estatística da divergência Kullback-Leibler, extraída de IJ Good ( Peso da evidência: Uma breve pesquisa , Bayesian Statistics 2, 1985).
O peso da evidência.
Suponha que você observe os pontos de dados que você tem motivos para acreditar que são amostras independentes de alguma distribuição desconhecida com uma densidade f 0 . No caso mais simples, você tem duas hipóteses H 1 e H 2 sobre o que é f 0 , diga H 1 = { fx1,x2,…,xn f0 H1 H2 f0 e H 2 = { f 2 } . Assim, você modelou o desconhecido f 0H1={f1} H2={f2} f0 como sendo um de ou f 2 .f1 f2
O peso da evidência da amostra para H 1 contra H 2 é definido como W ( x ) = log f 1 ( x )x=(x1,…,xn) H1 H2
É uma quantidade fácil de interpretar, especialmente dado umPprévionas hipótesesH0eH1
Em resumo, dada uma amostra , o peso da evidênciax W(x) W(x)>2
A divergência Kullback-Leibler
fonte
Não sei muito sobre teoria da informação, mas é assim que penso: quando ouço uma pessoa da teoria da informação dizer "comprimento da mensagem", meu cérebro diz "surpresa". A surpresa é 1.) aleatória e 2.) subjetiva.
Em vez de pensar em "quão diferentes eles são", penso no "aumento da surpresa esperada pelo uso da distribuição errada". Isso tudo é das propriedades do logaritmo.
Editar
Edit 2: parece que não sou o único que pensa nisso como "surpresa". A partir daqui :
fonte