O que é entropia empírica?

19

Na definição de conjuntos comuns em conjunto (em "Elementos da teoria da informação", cap. 7.6, p. 195), usamos

1nlogp(xn)
como a entropia empírica de uma sequência com . Eu nunca me deparei com essa terminologia antes. Não é definido explicitamente em nenhum lugar, de acordo com o índice do livro.np(xn)=Eu=1np(xEu)

Minha pergunta é basicamente: Por que a entropia empírica não é onde é a distribuição empírica?-xp^(x)registro(p^(x))p^(x)

Quais são as diferenças e semelhanças mais interessantes entre essas duas fórmulas? (em termos de propriedades que eles compartilham / não compartilham).

blubb
fonte
As duas expressões não são algebricamente iguais?
whuber
1
@ whuber: Não, são quantidades diferentes, com propósitos diferentes, acredito. Observe que o primeiro usa a medida verdadeira assumida conhecida a priori. O segundo não. p
cardeal
3
O primeiro diz respeito ao acúmulo de entropia ao longo do tempo e como ele se compara à verdadeira entropia do sistema. O SLLN e o CLT dizem muito sobre como ele se comporta. O segundo diz respeito à estimativa da entropia a partir dos dados e algumas de suas propriedades também podem ser obtidas através das mesmas duas ferramentas mencionadas. Mas, enquanto o primeiro é imparcial, o segundo não tem . Posso preencher alguns detalhes, se for útil. p
cardeal
1
@cardinal: Se você fornecer o comentário acima como uma resposta (talvez também explicar o que SLLN e CLT são - eu não sei isso?) Eu ficaria feliz em upvote ...
blubb
Ok, vou tentar postar mais tarde. Enquanto isso, SLLN = "Lei forte de grandes números" e CLT = "Teorema do limite central". Essas são abreviações bastante comuns que você provavelmente encontrará novamente. Felicidades. :)
cardeal

Respostas:

16

Se os dados forem , ou seja, um n -sequence a partir de um espaço de amostragem X , as probabilidades de ponto empíricos são p ( x ) = 1xn=x1...xnnX paraxX. Aquiδx(xi)é um sexi=xe zero em caso contrário. Isto é, p (x)representa a frequência relativa dexna sequência observada. Aentropiada distribuição de probabilidade dada pelas probabilidades de ponto empíricos é H( p )=-Σ

p^(x)=1n|{EuxEu=x}|=1nEu=1nδx(xEu)
xXδx(xEu)xEu=xp^(x)x O último identidade seguinte modo trocando os dois montantes e notando queΣx X δx(xi)log p (x)=log P (xi). Deste vemos que H( p )=-1
H(p^)=-xXp^(x)registrop^(x)=-xX1nEu=1nδx(xEu)registrop^(x)=-1nEu=1nregistrop^(xEu).
xXδx(xEu)registrop^(x)=registrop^(xEu).
com p (xn)=Π n i = 1 P (xi)e usando a terminologia do questão esta é a entropia empírica dadistribuição de probabilidade empírica. Como apontado por @cardinal em um comentário,-1
H(p^)=-1nregistrop^(xn)
p^(xn)=Eu=1np^(xEu)é a entropia empírica de uma dada distribuição de probabilidade com probabilidades pontuaisp.-1nregistrop(xn)p
NRH
fonte
3
(+1) Isso fornece uma boa ilustração do que Cover e Thomas chamam de "estranho caráter auto-referencial" da entropia. No entanto, não tenho certeza se a resposta realmente aborda (diretamente) as preocupações aparentes do OP. :)
cardeal
@ cardinal, eu sei, e a resposta foi apenas um longo comentário para fazer esse ponto específico. Eu não queria repetir seus pontos.
NRH
1
Você não deve se sentir mal ou hesitar em postar sua própria resposta, incluindo a expansão nos meus comentários ou nos de outras pessoas. Sou particularmente lento e péssimo em postar respostas e nunca vou me ofender se você ou outras pessoas postarem respostas que incorporam aspectos de coisas que eu possa ter comentado brevemente brevemente. Muito pelo contrário, de fato. Felicidades.
cardeal
7

A entropia é definida para distribuições de probabilidade. Quando você não possui um, mas apenas dados, e conecta um estimador ingênuo da distribuição de probabilidade, obtém entropia empírica. Isso é mais fácil para distribuições discretas (multinomiais), como mostrado em outra resposta, mas também pode ser feito para outras distribuições por binning, etc.

Um problema com a entropia empírica é que ela é enviesada para amostras pequenas. A estimativa ingênua da distribuição de probabilidade mostra variação extra devido ao ruído de amostragem. Obviamente, pode-se usar um estimador melhor, por exemplo, um prévio adequado para os parâmetros multinomiais, mas não é fácil obtê-lo realmente imparcial.

O acima descrito também se aplica a distribuições condicionais. Além disso, tudo é relativo ao binning (ou kernelization), então você realmente tem um tipo de entropia diferencial.

Scellus
fonte
3
Devemos ter cuidado com o que estamos chamando de entropia empírica aqui. Observe que o estimador de plug-in é sempre tendencioso baixo para todos os tamanhos de amostra, embora o viés diminua à medida que o tamanho da amostra aumenta. Não é apenas difícil obter estimadores imparciais para a entropia, mas é impossível no caso geral. Houve pesquisas bastante intensas nessa área nos últimos anos, principalmente na literatura de neurociência. Muitos resultados negativos existem, de fato.
cardeal