O que a entropia nos diz?

32

Estou lendo sobre entropia e estou tendo dificuldades para conceituar o que isso significa no caso contínuo. A página wiki declara o seguinte:

A distribuição de probabilidade dos eventos, juntamente com a quantidade de informações de cada evento, forma uma variável aleatória cujo valor esperado é a quantidade média de informações, ou entropia, gerada por essa distribuição.

Portanto, se eu calcular a entropia associada a uma distribuição de probabilidade contínua, o que isso realmente está me dizendo? Eles dão um exemplo sobre o lançamento de moedas, portanto, o caso discreto, mas se houver uma maneira intuitiva de explicar através de um exemplo como esse no caso contínuo, isso seria ótimo!

Se ajudar, a definição de entropia para uma variável aleatória contínua é a seguinte:X

H(X)=P(x)logbP(x)dx
que é uma função de distribuição de probabilidade.P(x)

Para tentar tornar isso mais concreto, considere o caso de e, de acordo com a Wikipedia , a entropia éXGamma(α,β)

H(X)=E[ln(P(X))]=E[αln(β)+ln(Γ(α))+ln(Γ(α))(α1)ln(X)+βX]=αln(β)+ln(Γ(α))+(1α)(ddαln(Γ(α)))

E agora calculamos a entropia para uma distribuição contínua (a distribuição Gamma) e, se agora avaliamos essa expressão, , dada e , o que essa quantidade realmente me diz? α βH(X)αβ

RustyStatistician
fonte
5
(+1) Essa citação faz referência a uma passagem verdadeiramente infeliz. Está tentando, de maneira laboriosa e opaca, descrever e interpretar a definição matemática de entropia. Essa definição é . Pode ser visto como a expectativa de , onde é a pdf de uma variável aleatória . Ele está tentando caracterizar como a "quantidade de informações" associada ao número . log ( f ( X ) ) f X log ( f ( x ) ) xf(x)log(f(x))dxlog(f(X))fXlog(f(x))x
whuber
5
Vale a pena perguntar, porque há uma questão técnica delicada, mas importante: a versão contínua da entropia não possui as mesmas propriedades que a versão discreta (que possui uma interpretação natural e intuitiva em termos de informação). @ Tim AFAIK, esse tópico sobre Matemática trata apenas de casos discretos .
whuber
1
@RustyStatistician pensa em como dizendo o quão surpreendente o resultado x foi. Você está calculando a surpresa esperada. log(f(x))
Adrian
3
Com relação às referências técnicas da @whuber, isso pode ser interessante.
5605 Sean Easter
3
Caso você esteja interessado em detalhes técnicos: a entropia é baseada em uma pseudo-métrica chamada divergência de Kullback-Leibler, usada para descrever as distâncias entre os eventos em suas respectivas medidas, consulte projecteuclid.org/euclid.aoms/1177729694 para obter o original ( artigo de Kullback e Leibler. O conceito também reaparece em critérios de seleção de modelo como o AIC e o BIC.
Jeremias K

Respostas:

31

A entropia informa quanta incerteza existe no sistema. Digamos que você esteja procurando um gato e saiba que está em algum lugar entre sua casa e os vizinhos, que fica a 1,6 km. Seus filhos lhe dizem que a probabilidade de um gato estar à distância de sua casa é melhor descrita pela distribuição beta . Portanto, um gato pode estar em qualquer lugar entre 0 e 1, mas é mais provável que esteja no meio, ou seja, .f ( x ; 2 , 2 ) x m um x = 1 / 2x f(x;2,2)xmax=1/2

insira a descrição da imagem aqui

Vamos conectar a distribuição beta à sua equação, para obter .H=0.125

Em seguida, você pergunta a sua esposa e ela diz que a melhor distribuição para descrever o conhecimento dela sobre o seu gato é a distribuição uniforme. Se você conectá-lo à sua equação de entropia, obtém .H=0

As distribuições uniforme e beta permitem que o gato esteja entre 0 e 1 milha da sua casa, mas há mais incerteza no uniforme, porque sua esposa realmente não tem idéia de onde o gato está se escondendo, enquanto as crianças têm alguma idéia , acham que é mais provável que esteja em algum lugar no meio. É por isso que a entropia do Beta é menor que a da Uniform.

insira a descrição da imagem aqui

Você pode tentar outras distribuições, talvez seu vizinho diga que o gato gosta de estar perto de qualquer uma das casas, então a distribuição beta dele é com . Seu deve ser menor do que o uniforme novamente, porque você tem uma idéia de onde procurar um gato. Adivinhe se a entropia de informações do seu vizinho é maior ou menor que a dos seus filhos? Eu apostaria em crianças qualquer dia sobre esses assuntos.Hα=β=1/2H

insira a descrição da imagem aqui

ATUALIZAR:

Como é que isso funciona? Uma maneira de pensar nisso é começar com uma distribuição uniforme. Se você concorda que é o que tem mais incerteza, pense em perturbá-lo. Vejamos o caso discreto para simplificar. Pegue de um ponto e adicione-o a outro da seguinte maneira: p i = p - Δ p p j = p + Δ pΔp

pi=pΔp
pj=p+Δp

Agora, vamos ver como a entropia muda: Isso significa que qualquer perturbação da distribuição uniforme reduz a entropia (incerteza). Para mostrar o mesmo em caso contínuo, eu teria que usar cálculo de variações ou algo parecido com essa linha, mas você obterá o mesmo tipo de resultado, em princípio.

HH=pilnpipiln(piΔp)+pjlnpjpjln(pj+Δp)
=plnppln[p(1Δp/p)]+plnppln[p(1+Δp/p)]
=ln(1Δp/p)ln(1+Δp/p)>0

ATUALIZAÇÃO 2: A média de variáveis ​​aleatórias uniformes é uma variável aleatória em si, e é da distribuição de Bates . No CLT , sabemos que a variação dessa nova variável aleatória diminui como . Portanto, a incerteza de sua localização deve diminuir com o aumento de : temos cada vez mais certeza de que um gato está no meio. Meu próximo gráfico e código MATLAB mostra como a entropia diminui de 0 para (distribuição uniforme) para . Estou usando a biblioteca distributions31 aqui.nnnn=1n=13

insira a descrição da imagem aqui

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'
Aksakal
fonte
1
(+1) Vou esperar para ver outras interpretações, mas realmente gosto dessa. Então, parece que você pode usar a entropia como uma medida de certeza de que você precisa compará-la com outras distribuições? Ou seja, o número por si só não diz muito?
RustyStatistician
1
@RustyStatistician, eu não diria que seu valor absoluto é totalmente sem sentido., Mas sim, é mais útil quando usado para comparar os estados do sistema. A maneira fácil de entropia internalizar é pensar nele como medida de incerteza
Aksakal
O problema com esta resposta é que o termo "incerteza" é deixado indefinido.
b Kjetil Halvorsen
1
o termo é deixado incerto
Aksakal
Isso é muito legal.
Astrid
1

Gostaria de adicionar uma resposta direta a esta pergunta:

o que essa quantidade realmente me diz?

É intuitivo ilustrar isso em um cenário discreto. Suponha que você jogue uma moeda fortemente tendenciosa, dizendo que a probabilidade de ver uma cabeça em cada flip é de 0,99. Cada mudança real diz muito pouca informação, porque você quase já sabe que será a cabeça. Mas quando se trata de uma moeda mais justa, não é mais difícil você ter uma idéia do que esperar, então cada flip informa mais informações do que qualquer outra moeda tendenciosa. A quantidade de informação obtida pela observação de um único lançamento é igualada a .registro1p(x)

O que a quantidade da entropia nos diz é a informação que cada flipping real (média ponderada) pode transmitir: . Quanto mais justa a moeda, maior a entropia, e uma moeda completamente justa será maximamente informativa.Eregistro1p(x)=p(x)registro1p(x)

Lerner Zhang
fonte