Na definição de conjuntos comuns em conjunto (em "Elementos da teoria da informação", cap. 7.6, p. 195), usamos
como a entropia empírica de uma sequência com . Eu nunca me deparei com essa terminologia antes. Não é definido explicitamente em nenhum lugar, de acordo com o índice do livro.
Minha pergunta é basicamente: Por que a entropia empírica não é onde é a distribuição empírica?
Quais são as diferenças e semelhanças mais interessantes entre essas duas fórmulas? (em termos de propriedades que eles compartilham / não compartilham).
information-theory
entropy
blubb
fonte
fonte
Respostas:
Se os dados forem , ou seja, um n -sequence a partir de um espaço de amostragem X , as probabilidades de ponto empíricos são p ( x ) = 1xn= x1… Xn n X
parax∈X. Aquiδx(xi)é um sexi=xe zero em caso contrário. Isto é, p (x)representa a frequência relativa dexna sequência observada. Aentropiada distribuição de probabilidade dada pelas probabilidades de ponto empíricos é
H( p )=-Σ
fonte
A entropia é definida para distribuições de probabilidade. Quando você não possui um, mas apenas dados, e conecta um estimador ingênuo da distribuição de probabilidade, obtém entropia empírica. Isso é mais fácil para distribuições discretas (multinomiais), como mostrado em outra resposta, mas também pode ser feito para outras distribuições por binning, etc.
Um problema com a entropia empírica é que ela é enviesada para amostras pequenas. A estimativa ingênua da distribuição de probabilidade mostra variação extra devido ao ruído de amostragem. Obviamente, pode-se usar um estimador melhor, por exemplo, um prévio adequado para os parâmetros multinomiais, mas não é fácil obtê-lo realmente imparcial.
O acima descrito também se aplica a distribuições condicionais. Além disso, tudo é relativo ao binning (ou kernelization), então você realmente tem um tipo de entropia diferencial.
fonte