Estou lendo sobre entropia e estou tendo dificuldades para conceituar o que isso significa no caso contínuo. A página wiki declara o seguinte:
A distribuição de probabilidade dos eventos, juntamente com a quantidade de informações de cada evento, forma uma variável aleatória cujo valor esperado é a quantidade média de informações, ou entropia, gerada por essa distribuição.
Portanto, se eu calcular a entropia associada a uma distribuição de probabilidade contínua, o que isso realmente está me dizendo? Eles dão um exemplo sobre o lançamento de moedas, portanto, o caso discreto, mas se houver uma maneira intuitiva de explicar através de um exemplo como esse no caso contínuo, isso seria ótimo!
Se ajudar, a definição de entropia para uma variável aleatória contínua é a seguinte:
Para tentar tornar isso mais concreto, considere o caso de e, de acordo com a Wikipedia , a entropia é
E agora calculamos a entropia para uma distribuição contínua (a distribuição Gamma) e, se agora avaliamos essa expressão, , dada e , o que essa quantidade realmente me diz? α β
Respostas:
A entropia informa quanta incerteza existe no sistema. Digamos que você esteja procurando um gato e saiba que está em algum lugar entre sua casa e os vizinhos, que fica a 1,6 km. Seus filhos lhe dizem que a probabilidade de um gato estar à distância de sua casa é melhor descrita pela distribuição beta . Portanto, um gato pode estar em qualquer lugar entre 0 e 1, mas é mais provável que esteja no meio, ou seja, .f ( x ; 2 , 2 ) x m um x = 1 / 2x f(x;2,2) xmax=1/2
Vamos conectar a distribuição beta à sua equação, para obter .H=−0.125
Em seguida, você pergunta a sua esposa e ela diz que a melhor distribuição para descrever o conhecimento dela sobre o seu gato é a distribuição uniforme. Se você conectá-lo à sua equação de entropia, obtém .H=0
As distribuições uniforme e beta permitem que o gato esteja entre 0 e 1 milha da sua casa, mas há mais incerteza no uniforme, porque sua esposa realmente não tem idéia de onde o gato está se escondendo, enquanto as crianças têm alguma idéia , acham que é mais provável que esteja em algum lugar no meio. É por isso que a entropia do Beta é menor que a da Uniform.
Você pode tentar outras distribuições, talvez seu vizinho diga que o gato gosta de estar perto de qualquer uma das casas, então a distribuição beta dele é com . Seu deve ser menor do que o uniforme novamente, porque você tem uma idéia de onde procurar um gato. Adivinhe se a entropia de informações do seu vizinho é maior ou menor que a dos seus filhos? Eu apostaria em crianças qualquer dia sobre esses assuntos.Hα=β=1/2 H
ATUALIZAR:
Como é que isso funciona? Uma maneira de pensar nisso é começar com uma distribuição uniforme. Se você concorda que é o que tem mais incerteza, pense em perturbá-lo. Vejamos o caso discreto para simplificar. Pegue de um ponto e adicione-o a outro da seguinte maneira: p ′ i = p - Δ p p ′ j = p + Δ pΔp
Agora, vamos ver como a entropia muda: Isso significa que qualquer perturbação da distribuição uniforme reduz a entropia (incerteza). Para mostrar o mesmo em caso contínuo, eu teria que usar cálculo de variações ou algo parecido com essa linha, mas você obterá o mesmo tipo de resultado, em princípio.
ATUALIZAÇÃO 2: A média de variáveis aleatórias uniformes é uma variável aleatória em si, e é da distribuição de Bates . No CLT , sabemos que a variação dessa nova variável aleatória diminui como . Portanto, a incerteza de sua localização deve diminuir com o aumento de : temos cada vez mais certeza de que um gato está no meio. Meu próximo gráfico e código MATLAB mostra como a entropia diminui de 0 para (distribuição uniforme) para . Estou usando a biblioteca distributions31 aqui.n n→∞ n n=1 n=13
fonte
Gostaria de adicionar uma resposta direta a esta pergunta:
É intuitivo ilustrar isso em um cenário discreto. Suponha que você jogue uma moeda fortemente tendenciosa, dizendo que a probabilidade de ver uma cabeça em cada flip é de 0,99. Cada mudança real diz muito pouca informação, porque você quase já sabe que será a cabeça. Mas quando se trata de uma moeda mais justa, não é mais difícil você ter uma idéia do que esperar, então cada flip informa mais informações do que qualquer outra moeda tendenciosa. A quantidade de informação obtida pela observação de um único lançamento é igualada a .registro1p ( x )
O que a quantidade da entropia nos diz é a informação que cada flipping real (média ponderada) pode transmitir: . Quanto mais justa a moeda, maior a entropia, e uma moeda completamente justa será maximamente informativa.Eregistro1p ( x )= ∑ p ( x ) log1p ( x )
fonte