Eu usei o princípio da entropia máxima para justificar o uso de várias distribuições em várias configurações; no entanto, ainda não consegui formular uma interpretação estatística, em oposição à teórica da informação, da entropia máxima. Em outras palavras, o que maximizar a entropia implica nas propriedades estatísticas da distribuição?
Alguém já se deparou ou talvez tenha descoberto uma interpretação estatística de máx. distribuições de entropia que não atraem informações, mas apenas conceitos probabilísticos?
Como exemplo de tal interpretação (não necessariamente verdadeira): "Para um intervalo de comprimento arbitrário L no domínio do RV (assumindo seu 1 d contínuo por simplicidade), a probabilidade máxima que pode estar contida nesse intervalo é minimizada pela distribuição máxima de entropia ".
Então, você vê que não se fala em "informatividade" ou outras idéias mais filosóficas, apenas implicações probabilísticas.
Respostas:
Este não é realmente o meu campo, então algumas reflexões:
Vou começar com o conceito de surpresa . O que significa ser surpreendido? Normalmente, isso significa que aconteceu algo que não se esperava que acontecesse. Portanto, surpreenda-o como um conceito probabilístico e pode ser explicado como tal (IJ Good escreveu sobre isso). Veja também Wikipedia e Surpresa Bayesiana .
Tomemos o caso particular de uma situação de sim / não, algo pode acontecer ou não. Isso acontece com probabilidadep . Digamos, se p = 0,9 e isso acontecer, você não ficará surpreso. Se p = 0,05 e isso acontecer, você ficará surpreso. E se p = 0,0000001 e isso acontece, você está realmente surpreso. Portanto, uma medida natural do "valor surpresa no resultado observado" é uma função (anti) monótona da probabilidade do que aconteceu. Parece natural (e funciona bem ...) adotar o logaritmo de probabilidade do que aconteceu e, em seguida, lançamos um sinal de menos para obter um número positivo. Além disso, adotando o logaritmo, concentramo-nos na ordem da surpresa e, na prática, as probabilidades costumam ser conhecidas apenas por ordem, mais ou menos .
Assim, definimosSurpresa ( A ) = - logp ( A )
onde UMA é o resultado observado p ( A ) é sua probabilidade.
Agora podemos perguntar qual é a surpresa esperada . SejaX uma variável aleatória de Bernoulli com probabilidade p . Possuem dois resultados possíveis, 0 e 1. Os respectivos valores de surpresa são
Surpresa ( 0 )Surpresa ( 1 )= - log( 1 - p )= - logp
então a surpresa ao observarX é ela própria uma variável aleatória com expectativa
p ⋅ - logp + ( 1 - p ) ⋅ - log( 1 - p )
e isso é --- surpresa! --- a entropia deX ! Então entropia éesperada surpresa!
Agora, esta pergunta é sobre entropia máxima . Por que alguém iria querer usar uma distribuição máxima de entropia? Bem, deve ser porque eles querem ser surpreendidos ao máximo! Por que alguém iria querer isso?
Uma maneira de ver isso é o seguinte: você quer aprender algo e, para esse objetivo, estabelece algumas experiências de aprendizado (ou experimentos ...). Se você já sabia tudo sobre esse tópico, sempre pode prever com perfeição, para nunca se surpreender. Como você nunca obtém uma nova experiência, não aprenda nada de novo (mas você já sabe tudo - não há nada a aprender, tudo bem). Na situação mais típica que você está confuso, incapaz de prever perfeitamente, há uma oportunidade de aprendizado! Isso leva à idéia de que podemos medir a "quantidade possível de aprendizado" pela surpresa esperada , ou seja, entropia. Portanto, maximizar a entropia nada mais é do que maximizar a oportunidade de aprender. Isso soa como um conceito útil, que pode ser útil na criação de experimentos e coisas assim.
Um exemplo poético é o bem conhecido
Um exemplo prático: você deseja projetar um sistema para testes on-line (on-line significa que nem todos recebem as mesmas perguntas, as perguntas são escolhidas dinamicamente, dependendo das respostas anteriores, otimizadas, de alguma forma, para cada pessoa).
fonte
Embora não seja um especialista em teoria da informação e entropia máxima, estou interessado nisso há algum tempo.
A entropia é uma medida da incerteza de uma distribuição de probabilidade que foi derivada de acordo com um conjunto de critérios. Ele e medidas relacionadas caracterizam as distribuições de probabilidade. E, é a medida única que atende a esses critérios. Isso é semelhante ao caso da própria probabilidade, que, conforme explicado lindamente em Jaynes (2003), é a medida única que satisfaz alguns critérios muito desejáveis para qualquer medida de incerteza de afirmações lógicas.
Qualquer outra medida da incerteza de uma distribuição de probabilidade diferente da entropia teria que violar um ou mais dos critérios usados para definir a entropia (caso contrário, seria necessariamente entropia). Então, se você tinha alguma declaração geral em termos de probabilidade que de alguma forma deu os mesmos resultados que a entropia máxima ... então seria ser máxima entropia!
A coisa mais próxima que posso encontrar de uma declaração de probabilidade sobre distribuições máximas de entropia até agora é o teorema da concentração de Jaynes . Você pode encontrar isso explicado claramente em Kapur e Kesavan (1992). Aqui está uma correção:
ET Jaynes (2003) Teoria da Probabilidade: A Lógica da Ciência. Cambridge University Press.
JN Kapur e .K. Kesavan (1992) Princípios de otimização de entropia com aplicações. Academic Press, Inc.
fonte
Ainda não explorei as implicações disso, nem tenho certeza de entendê-las completamente.
[editar: erro de digitação fixo]
fonte