Eu sei que a entropia é a medida da aleatoriedade de um processo / variável e pode ser definida da seguinte forma. para uma variável aleatória conjunto : - . No livro sobre Entropia e Teoria da Informação de MacKay, ele fornece esta declaração no capítulo 2
A entropia é maximizada se p for uniforme.
Intuitivamente, sou capaz de entendê-lo, como se todos os pontos de dados no conjunto fossem escolhidos com igual probabilidade ( sendo cardinalidade do conjunto ), então a aleatoriedade ou a entropia aumentam. Mas se sabemos que alguns pontos do conjunto ocorrerão com mais probabilidade do que outros (digamos, no caso de distribuição normal, onde a concentração máxima de pontos de dados está em torno da média e pequena área de desvio padrão em torno dele, então a aleatoriedade ou entropia deve diminuir.
Mas existe alguma prova matemática para isso? Como a equação para eu a diferencio em relação a e defino-a como 0 ou algo assim.
Em uma nota lateral, existe alguma conexão entre a entropia que ocorre na teoria da informação e os cálculos de entropia na química (termodinâmica)?
fonte
Respostas:
Heuristicamente, a função densidade de probabilidade em com entropia máxima acaba sendo a que corresponde à menor quantidade de conhecimento de{x1,x2,..,.xn} , em outras palavras, a distribuição uniforme.{x1,x2,..,.xn}
Agora, para uma prova mais formal, considere o seguinte:
A função de densidade de probabilidade em é um conjunto de números reais não negativo p 1 , . . . , P n que adicionar até 1. A entropia é uma função contínua dos n -tuples ( p 1 , . . . , P n ) , e estes pontos encontram-se em um subconjunto compacto de R n , para que haja um n{x1,x2,..,.xn} p1,...,pn n (p1,...,pn) Rn n -tuplo onde a entropia é maximizada. Queremos mostrar isso ocorre em e em nenhum outro lugar.(1/n,...,1/n)
Suponha que não sejam todos iguais, digamos p 1 < p 2 . (Claramente n ≠ 1. ) Encontraremos uma nova densidade de probabilidade com maior entropia. Segue-se, desde que a entropia é maximizada em algum n- duplo, essa entropia é maximizada exclusivamente no n- duplo com p i = 1 / n para todos os i .pj p1<p2 n≠1 n n pi=1/n i
Como , para ε positivo pequeno , temos p 1 + ε < p 2 - ε . A entropia de { p 1 + ε , p 2 - ε , p 3 , . . . , P n } menos a entropia de { p 1 , p 2 , p 3 , . . . , pp1<p2 ε p1+ε<p2−ε {p1+ε,p2−ε,p3,...,pn} é igual{p1,p2,p3,...,pn}
Para concluir a prova, queremos mostrar que isso é positivo paraεpequeno o suficiente. Reescreva a equação acima como -p1log(1+ε
Recordando que para x pequeno , a equação acima é - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) que é positivo quandolog(1+x)=x+O(x2) x
Uma prova menos rigorosa é a seguinte:
Considere primeiro o seguinte lema:
Além disso, a wikipedia também tem uma breve discussão sobre isso: wiki
fonte
A entropia na física e na teoria da informação não está relacionada. Eles são mais diferentes do que o nome sugere, mas há claramente uma ligação entre eles. O objetivo da métrica de entropia é medir a quantidade de informações. Veja minha resposta com gráficos aqui para mostrar como a entropia muda de distribuição uniforme para uma corcunda.
A razão pela qual a entropia é maximizada para uma distribuição uniforme é porque foi projetada assim! Sim, estamos construindo uma medida para a falta de informações, portanto, queremos atribuir seu valor mais alto à distribuição menos informativa.
Exemplo. Eu perguntei " Cara, cadê meu carro ?" Sua resposta é "está em algum lugar nos EUA entre os oceanos Atlântico e Pacífico". Este é um exemplo da distribuição uniforme. Meu carro pode estar em qualquer lugar nos EUA. Não obtive muitas informações dessa resposta.
No entanto, se você me dissesse "Vi seu carro uma hora atrás na Rota 66, partindo de Washington, DC" - essa não é mais uma distribuição uniforme. É mais provável que o carro esteja a 100 quilômetros de DC, do que em qualquer lugar perto de Los Angeles. Há claramente mais informações aqui.
Portanto, nossa medida deve ter alta entropia para a primeira resposta e menor para a segunda. O uniforme deve ter uma distribuição menos informativa, é basicamente a resposta "não faço ideia".
fonte
fonte
Sim existe! Você pode ver o trabalho de Jaynes e muitos outros após o trabalho dele (como aqui e aqui , por exemplo).
Mas a idéia principal é que a mecânica estatística (e outros campos da ciência também) pode ser vista como a inferência que fazemos sobre o mundo .
Como leitura adicional, recomendo o livro de Ariel Caticha sobre esse assunto.
fonte
Uma explicação intuitiva:
Se colocarmos mais massa de probabilidade em um evento de uma variável aleatória, teremos que retirar alguns de outros eventos. Um terá menos conteúdo de informação e mais peso, os outros mais conteúdo de informação e menos peso. Portanto, a entropia, sendo o conteúdo de informação esperado, diminuirá, pois o evento com menor conteúdo de informação será mais ponderado.
Como um caso extremo, imagine um evento com probabilidade de quase um, portanto os outros eventos terão uma probabilidade combinada de quase zero e a entropia será muito baixa.
fonte
fonte