Interpretação estatística da distribuição máxima de entropia

23

Eu usei o princípio da entropia máxima para justificar o uso de várias distribuições em várias configurações; no entanto, ainda não consegui formular uma interpretação estatística, em oposição à teórica da informação, da entropia máxima. Em outras palavras, o que maximizar a entropia implica nas propriedades estatísticas da distribuição?

Alguém já se deparou ou talvez tenha descoberto uma interpretação estatística de máx. distribuições de entropia que não atraem informações, mas apenas conceitos probabilísticos?

Como exemplo de tal interpretação (não necessariamente verdadeira): "Para um intervalo de comprimento arbitrário L no domínio do RV (assumindo seu 1 d contínuo por simplicidade), a probabilidade máxima que pode estar contida nesse intervalo é minimizada pela distribuição máxima de entropia ".

Então, você vê que não se fala em "informatividade" ou outras idéias mais filosóficas, apenas implicações probabilísticas.

distributions entropy intuition information-theory maximum-entropy Annika
fonte

3

Eu acho que você precisa ser mais específico sobre o que está procurando: afinal, a entropia é uma medida "estatística" como uma variação, etc. Assim, parece-me que você tem que ir estatísticas externas para chegar a uma "justificação"

seanv507

1

Seanv: Eu concordo que a entropia, como uma estatística funcional, é tão "estatística" quanto a variância, o valor esperado, a inclinação, etc. um de vários teoremas de limite central e também intuitivamente como somas de longo prazo (para a média) e erro RMS (para o desvio padrão). Talvez eu deva reformular minha pergunta para ler "Interpretação probabilística das distribuições máximas de entropia".

Annika

1

Annika, a distribuição máxima de entropia tem a seguinte interpretação: Se

são variáveis aleatórias, a probabilidade condicional como onde é a distribuição máxima de entropia do conjunto . Veja também ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1

X_{1}, X_{2}, \dots

$X_1,X_2,\dots$

P (\cdot | X_{1} + \dots + X_{n} = n a) \to P^{*} (\cdot)

$P(\cdot|X_1+\dots+X_n=na)\to P^*(\cdot)$

n \to \infty

$n\to \infty$

P^{*}

$P^*$

{P : E_{P} X = a}

$\{P:\mathbb{E}_PX=a\}$

Ashok

2

Obrigado Ashok. Vou dar uma olhada nesse artigo com mais detalhes. Este parece ser um caso específico de maximizar a entropia para uma determinada média, mas ainda estou curioso para saber o que a operação de maximizar a entropia de Shanon está fazendo matematicamente, de forma que o resultado acima seja válido. Está efetivamente minimizando a densidade máxima ou a concentração média da medida de probabilidade?

Annika

19

Este não é realmente o meu campo, então algumas reflexões:

Vou começar com o conceito de surpresa . O que significa ser surpreendido? Normalmente, isso significa que aconteceu algo que não se esperava que acontecesse. Portanto, surpreenda-o como um conceito probabilístico e pode ser explicado como tal (IJ Good escreveu sobre isso). Veja também Wikipedia e Surpresa Bayesiana .

Tomemos o caso particular de uma situação de sim / não, algo pode acontecer ou não. Isso acontece com probabilidade $p$ . Digamos, se p = 0,9 e isso acontecer, você não ficará surpreso. Se $p=0.05$ e isso acontecer, você ficará surpreso. E se $p=0.0000001$ e isso acontece, você está realmente surpreso. Portanto, uma medida natural do "valor surpresa no resultado observado" é uma função (anti) monótona da probabilidade do que aconteceu. Parece natural (e funciona bem ...) adotar o logaritmo de probabilidade do que aconteceu e, em seguida, lançamos um sinal de menos para obter um número positivo. Além disso, adotando o logaritmo, concentramo-nos na ordem da surpresa e, na prática, as probabilidades costumam ser conhecidas apenas por ordem, mais ou menos .

Assim, definimos

Surprise (A) = - \log p (A)

$\text{Surprise}(A) = -\log p(A)$ onde

A

$A$ é o resultado observado

p (A)

$p(A)$ é sua probabilidade.

Agora podemos perguntar qual é a surpresa esperada . Seja $X$ uma variável aleatória de Bernoulli com probabilidade $p$ . Possuem dois resultados possíveis, 0 e 1. Os respectivos valores de surpresa são

\begin{aligned} Surprise (0) & = - \log (1 - p) \\ Surprise (1) & = - \log p \end{aligned}

$\begin{align} \text{Surprise}(0) &= -\log(1-p) \\ \text{Surprise}(1) &= -\log p \end{align}$ então a surpresa ao observar

X

$X$ é ela própria uma variável aleatória com expectativa

p \cdot - \log p + (1 - p) \cdot - \log (1 - p)

$p \cdot -\log p + (1-p) \cdot -\log(1-p)$ e isso é --- surpresa! --- a entropia de

X

$X$ ! Então entropia éesperada surpresa!

Agora, esta pergunta é sobre entropia máxima . Por que alguém iria querer usar uma distribuição máxima de entropia? Bem, deve ser porque eles querem ser surpreendidos ao máximo! Por que alguém iria querer isso?

Uma maneira de ver isso é o seguinte: você quer aprender algo e, para esse objetivo, estabelece algumas experiências de aprendizado (ou experimentos ...). Se você já sabia tudo sobre esse tópico, sempre pode prever com perfeição, para nunca se surpreender. Como você nunca obtém uma nova experiência, não aprenda nada de novo (mas você já sabe tudo - não há nada a aprender, tudo bem). Na situação mais típica que você está confuso, incapaz de prever perfeitamente, há uma oportunidade de aprendizado! Isso leva à idéia de que podemos medir a "quantidade possível de aprendizado" pela surpresa esperada , ou seja, entropia. Portanto, maximizar a entropia nada mais é do que maximizar a oportunidade de aprender. Isso soa como um conceito útil, que pode ser útil na criação de experimentos e coisas assim.

Um exemplo poético é o bem conhecido

Wenn einer eine reise macht, dann kann er was erzählen ...

Um exemplo prático: você deseja projetar um sistema para testes on-line (on-line significa que nem todos recebem as mesmas perguntas, as perguntas são escolhidas dinamicamente, dependendo das respostas anteriores, otimizadas, de alguma forma, para cada pessoa).

$p$ $p$ $p=0.5$

$X$ $X$ $\{X=x\}$ $-\log p$ $x$ $f(x)$ $f$

Surprise (x) = - \log f (x)

$\DeclareMathOperator{\E}{\mathbb{E}} \text{Surprise}(x) = -\log f(x)$

X

$X$

E {- \log f (X)} = - \int f (x) \log f (x) d x

$\E \{-\log f(X)\} = -\int f(x) \log f(x) \; dx$

X

$X$

X

$X$

kjetil b halvorsen
fonte

5

Essa é uma das melhores e intuitivas explicações sobre entropia máxima que eu já vi!

Vladislavs Dovgalecs

3

Embora não seja um especialista em teoria da informação e entropia máxima, estou interessado nisso há algum tempo.

A entropia é uma medida da incerteza de uma distribuição de probabilidade que foi derivada de acordo com um conjunto de critérios. Ele e medidas relacionadas caracterizam as distribuições de probabilidade. E, é a medida única que atende a esses critérios. Isso é semelhante ao caso da própria probabilidade, que, conforme explicado lindamente em Jaynes (2003), é a medida única que satisfaz alguns critérios muito desejáveis para qualquer medida de incerteza de afirmações lógicas.

Qualquer outra medida da incerteza de uma distribuição de probabilidade diferente da entropia teria que violar um ou mais dos critérios usados para definir a entropia (caso contrário, seria necessariamente entropia). Então, se você tinha alguma declaração geral em termos de probabilidade que de alguma forma deu os mesmos resultados que a entropia máxima ... então seria ser máxima entropia!

A coisa mais próxima que posso encontrar de uma declaração de probabilidade sobre distribuições máximas de entropia até agora é o teorema da concentração de Jaynes . Você pode encontrar isso explicado claramente em Kapur e Kesavan (1992). Aqui está uma correção:

$p$ $n$ $p_i$ $i=1,...,n$ $m$ $m+1$

$S$ $m+1$ $S_{\textrm{max}}$

$N$

2 N (S_{max} - S) \sim χ_{n - m - 1}^{2} .

$2N(S_{\textrm{max}} - S) \sim \chi^2_{n-m-1}.$

(S_{max} - \frac{χ_{n - m - 1}^{2} (0.95)}{2 N}, S_{max}) .

$\left( S_{\textrm{max}} - \frac {\chi^2_{n-m-1} (0.95)}{2N}, S_{\textrm{max}} \right).$

S_{max} - \frac{χ_{n - m - 1}^{2} (0.95)}{2 N}

$S_{\textrm{max}} - \frac {\chi^2_{n-m-1} (0.95)}{2N}$

ET Jaynes (2003) Teoria da Probabilidade: A Lógica da Ciência. Cambridge University Press.

JN Kapur e .K. Kesavan (1992) Princípios de otimização de entropia com aplicações. Academic Press, Inc.

jvbraun
fonte

3

$\sigma$

"Portanto, nessa interpretação, o teorema básico do limite central expressa o fato de que a entropia por símbolo de somas de variáveis aleatórias independentes com zero médio e variância comum tende ao máximo. Isso parece eminentemente razoável; de fato, é uma expressão do segunda lei da termodinâmica, que Eddington via como tendo "a posição suprema entre as leis da natureza". "

Ainda não explorei as implicações disso, nem tenho certeza de entendê-las completamente.

[editar: erro de digitação fixo]

F. Tusell
fonte

Interpretação estatística da distribuição máxima de entropia

Respostas: