Intuição sobre uma entropia conjunta

9

Estou tendo problemas para criar alguma intuição sobre entropia conjunta. = incerteza na distribuição conjunta ; = incerteza em ; = incerteza em .H(X,Y)p(x,y)H(X)px(x)H(Y)py(y)

Se H (X) for alto, a distribuição será mais incerta e, se você souber o resultado dessa distribuição, terá mais informações! Então H (X) também quantifica informações.

Agora podemos mostrarH(X,Y)H(X)+H(Y)

Mas se você conhece pode obter e então, em certo sentido, tem mais informações do que e , portanto, não deveria ' t a incerteza relacionada a p (x, y) é maior que a soma das incertezas individuais?p(x,y)px(x)py(y)p(x,y)px(x)py(y)

user21455
fonte

Respostas:

7

Como regra geral, informações adicionais nunca aumentam a entropia, que é formalmente declarada como:

H(X|Y)H(X)

a igualdade vale se e são independentes, o que implica .XYH(X|Y)=H(X)

Este resultado pode ser usado para provar a entropia conjunta . Para demonstrá-lo, considere um caso simples . De acordo com a regra da cadeia, podemos escrever a entropia de junção como abaixoH(X1,X2,...,Xn)i=1nH(Xi)H(X,Y)

H(X,Y)=H(X|Y)+H(Y)

Considerando a desigualdade , nunca aumenta a entropia da variável e, portanto, . Usando a indução, pode-se generalizar esse resultado para os casos que envolvem mais de duas variáveis.H(X|Y)XH(X,Y)H(X)+H(Y)

Espero que tenha ajudado a reduzir a ambiguidade (ou a sua entropia) sobre a entropia conjunta!

omidi
fonte
4

Há outro ponto de vista da entropia de Shannon. Imagine que você queira adivinhar através de perguntas qual é o valor concreto de uma variável. Por simplicidade, imagine que o valor possa ter apenas oito valores diferentes , e todos são igualmente prováveis.(0,1,...,8)

A maneira mais eficiente é realizar uma pesquisa binária. Primeiro você pergunta se é maior ou menor que 4. Em seguida, compare-o com 2 ou 6 e assim por diante. No total, você não precisará de mais de três perguntas (que é o número de bits dessa distribuição concreta).

Podemos continuar a analogia para o caso de duas variáveis. Se eles não forem independentes, o conhecimento do valor de um deles o ajudará a fazer melhores suposições (em média) para a próxima pergunta (isso se reflete nos resultados apontados por omidi ). Portanto, a entropia é menor, a menos que sejam completamente independentes, onde você precisa adivinhar seus valores de forma independente. Dizer que a entropia é mais baixa significa (para este exemplo concreto) que você precisa fazer menos perguntas em média (ou seja, na maioria das vezes você fará boas suposições).

jpmuc
fonte
2

Parece que você está pensando "se houver mais informações quando conhecidas, e mais entropia quando desconhecidas". Esta não é uma intuição correta, porque, se a distribuição é desconhecida, nem conhecemos sua entropia. Se a distribuição é conhecida, a entropia quantifica a quantidade de informação necessária para descrever a incerteza sobre a realização da variável aleatória, que permanece desconhecida (só sabemos a estrutura que circunda essa incerteza, conhecendo a distribuição). A entropia não quantifica a informação "presente" na distribuição. Pelo contrário: quanto mais informações "incluídas" na distribuição, menos informações "necessárias" para descrever a incerteza e, portanto, menosa entropia é. Considere a distribuição uniforme: contém muito pouca informação, porque todos os valores possíveis da variável são equivalentes: portanto, ela tem entropia máxima entre todas as distribuições com suporte limitado.

Quanto à Entropia Conjunta, você pode pensar da seguinte maneira: a distribuição conjunta contém informações sobre se duas variáveis ​​são dependentes ou não, além de informações suficientes para derivar as distribuições marginais. As distribuições marginais não contêm informações sobre se duas variáveis ​​aleatórias são dependentes ou independentes. Portanto, a distribuição conjunta tem mais informações e nos oferece menos incerteza em torno das variáveis ​​aleatórias envolvidas:

Mais informações incluídas na distribuição menos incerteza em torno das variáveis menos informações necessárias para descrever essa incerteza menos entropia.

Alecos Papadopoulos
fonte
Thanx, isso deixa as coisas muito claras. Eu estava pensando que as correlações em uma distribuição deveriam diminuir a incerteza de um par de valores e, portanto, deve ser menor que . (X,Y)H(X,Y)H(X)+H(Y)
user21455
Sim, essa é a essência.
Alecos Papadopoulos