Por que a Entropia é maximizada quando a distribuição de probabilidade é uniforme?

32

Eu sei que a entropia é a medida da aleatoriedade de um processo / variável e pode ser definida da seguinte forma. para uma variável aleatória conjunto : - . No livro sobre Entropia e Teoria da Informação de MacKay, ele fornece esta declaração no capítulo 2XAH(X)=xiAp(xi)log(p(xi))

A entropia é maximizada se p for uniforme.

Intuitivamente, sou capaz de entendê-lo, como se todos os pontos de dados no conjunto fossem escolhidos com igual probabilidade ( sendo cardinalidade do conjunto ), então a aleatoriedade ou a entropia aumentam. Mas se sabemos que alguns pontos do conjunto ocorrerão com mais probabilidade do que outros (digamos, no caso de distribuição normal, onde a concentração máxima de pontos de dados está em torno da média e pequena área de desvio padrão em torno dele, então a aleatoriedade ou entropia deve diminuir.A1/mmAA

Mas existe alguma prova matemática para isso? Como a equação para eu a diferencio em relação a e defino-a como 0 ou algo assim.H(X)p(x)

Em uma nota lateral, existe alguma conexão entre a entropia que ocorre na teoria da informação e os cálculos de entropia na química (termodinâmica)?

user76170
fonte
2
Esta pergunta é respondida (de passagem) em stats.stackexchange.com/a/49174/919 .
whuber
Estou ficando bastante confuso com outra afirmação dada no livro de Christopher Bishops, que afirma que "para uma única variável real, a distribuição que maximiza a entropia é a gaussiana". Ele também afirma que "a distribuição multivariada com entropia máxima, para uma dada covariância, é gaussiana". Como esta declaração é válida? A entropia da distribuição uniforme não é o máximo sempre?
user76170
6
A maximização é sempre realizada sujeita a restrições na solução possível. Quando as restrições são de que toda a probabilidade deve desaparecer além dos limites predefinidos, a solução de entropia máxima é uniforme. Quando, em vez disso, as restrições são de que a expectativa e a variação devem ser iguais aos valores predefinidos, a solução ME é gaussiana. As declarações que você cita devem ter sido feitas em contextos específicos em que essas restrições foram declaradas ou pelo menos implicitamente compreendidas.
whuber
2
Eu provavelmente também devo mencionar que a palavra "entropia" significa algo diferente no cenário gaussiano do que na pergunta original aqui, pois estamos discutindo entropia de distribuições contínuas . Essa "entropia diferencial" é um animal diferente da entropia de distribuições discretas. A principal diferença é que a entropia diferencial não é invariável sob uma mudança de variáveis.
whuber
Então, o que significa que a maximização sempre é em relação às restrições? E se não houver restrições? Quero dizer, não pode haver uma pergunta como esta? Qual distribuição de probabilidade tem entropia máxima?
user76170

Respostas:

25

Heuristicamente, a função densidade de probabilidade em com entropia máxima acaba sendo a que corresponde à menor quantidade de conhecimento de{x1,x2,..,.xn} , em outras palavras, a distribuição uniforme.{x1,x2,..,.xn}

Agora, para uma prova mais formal, considere o seguinte:

A função de densidade de probabilidade em é um conjunto de números reais não negativo p 1 , . . . , P n que adicionar até 1. A entropia é uma função contínua dos n -tuples ( p 1 , . . . , P n ) , e estes pontos encontram-se em um subconjunto compacto de R n , para que haja um n{x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn-tuplo onde a entropia é maximizada. Queremos mostrar isso ocorre em e em nenhum outro lugar.(1/n,...,1/n)

Suponha que não sejam todos iguais, digamos p 1 < p 2 . (Claramente n 1. ) Encontraremos uma nova densidade de probabilidade com maior entropia. Segue-se, desde que a entropia é maximizada em algum n- duplo, essa entropia é maximizada exclusivamente no n- duplo com p i = 1 / n para todos os i .pjp1<p2n1nnpi=1/ni

Como , para ε positivo pequeno , temos p 1 + ε < p 2 - ε . A entropia de { p 1 + ε , p 2 - ε , p 3 , . . . , P n } menos a entropia de { p 1 , p 2 , p 3 , . . . , pp1<p2εp1+ε<p2ε{p1+ε,p2ε,p3,...,pn} é igual{p1,p2,p3,...,pn}

Para concluir a prova, queremos mostrar que isso é positivo paraεpequeno o suficiente. Reescreva a equação acima como -p1log(1+ε

p1log(p1+εp1)εlog(p1+ε)p2log(p2εp2)+εlog(p2ε)
ε
p1log(1+εp1)ε(logp1+log(1+εp1))p2log(1εp2)+ε(logp2+log(1εp2))

Recordando que para x pequeno , a equação acima é - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) que é positivo quandolog(1+x)=x+O(x2)x

εεlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
é pequeno o suficiente, pois p 1 < p 2 .εp1<p2

Uma prova menos rigorosa é a seguinte:

Considere primeiro o seguinte lema:

p(x)q(x)Ip0q>0I

IplogpdxIplogqdx
p(x)=q(x)x

p{x1,...,xn}pi=p(xi)qi=1/ni

i=1npilogqi=i=1npilogn=logn
qh(p)h(q)p

Além disso, a wikipedia também tem uma breve discussão sobre isso: wiki

mitchus
fonte
11
exp(H)(1pi)pipi1pi=n1/pi
lognlogn
4
i=1npilogn=logni=1npilogn=logni=1npi=logn×1
logni1p1,,pn
A mesma explicação com mais detalhes pode ser encontrada aqui: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
Roland
14

A entropia na física e na teoria da informação não está relacionada. Eles são mais diferentes do que o nome sugere, mas há claramente uma ligação entre eles. O objetivo da métrica de entropia é medir a quantidade de informações. Veja minha resposta com gráficos aqui para mostrar como a entropia muda de distribuição uniforme para uma corcunda.

A razão pela qual a entropia é maximizada para uma distribuição uniforme é porque foi projetada assim! Sim, estamos construindo uma medida para a falta de informações, portanto, queremos atribuir seu valor mais alto à distribuição menos informativa.

Exemplo. Eu perguntei " Cara, cadê meu carro ?" Sua resposta é "está em algum lugar nos EUA entre os oceanos Atlântico e Pacífico". Este é um exemplo da distribuição uniforme. Meu carro pode estar em qualquer lugar nos EUA. Não obtive muitas informações dessa resposta.

No entanto, se você me dissesse "Vi seu carro uma hora atrás na Rota 66, partindo de Washington, DC" - essa não é mais uma distribuição uniforme. É mais provável que o carro esteja a 100 quilômetros de DC, do que em qualquer lugar perto de Los Angeles. Há claramente mais informações aqui.

Portanto, nossa medida deve ter alta entropia para a primeira resposta e menor para a segunda. O uniforme deve ter uma distribuição menos informativa, é basicamente a resposta "não faço ideia".

Aksakal
fonte
7

f(x)[a,b]y1,yn[a,b]nf(y1+ynn)f(y1)++f(yn)

f(x)=xlog(x)yi=p(xi)p(xi)log(n)i=1np(xi)log(p(xi))

Ganea do Otaviano
fonte
11
Na verdade, acho que a prova de desigualdade de Jensen é uma prova muito mais profunda do que a AM-GM.
Casebash 8/10
4

Em uma nota lateral, existe alguma conexão entre a entropia que ocorre na teoria da informação e os cálculos de entropia na química (termodinâmica)?

Sim existe! Você pode ver o trabalho de Jaynes e muitos outros após o trabalho dele (como aqui e aqui , por exemplo).

Mas a idéia principal é que a mecânica estatística (e outros campos da ciência também) pode ser vista como a inferência que fazemos sobre o mundo .

Como leitura adicional, recomendo o livro de Ariel Caticha sobre esse assunto.

kaslusimoes
fonte
1

Uma explicação intuitiva:

Se colocarmos mais massa de probabilidade em um evento de uma variável aleatória, teremos que retirar alguns de outros eventos. Um terá menos conteúdo de informação e mais peso, os outros mais conteúdo de informação e menos peso. Portanto, a entropia, sendo o conteúdo de informação esperado, diminuirá, pois o evento com menor conteúdo de informação será mais ponderado.

Como um caso extremo, imagine um evento com probabilidade de quase um, portanto os outros eventos terão uma probabilidade combinada de quase zero e a entropia será muito baixa.

Roland
fonte
0

pi

pii=1,...,nq=1i=0n1pi

H=i=0n1pilogpi(1q)logqHln2=i=0n1pilnpi(1q)lnq
Hpi=lnqpi=0
q=piip1=p2=...=pn

Jan Fan
fonte
pi