Ao tratar uma função de utilidade normalizada relativa como um pmf, qual é a interpretação da entropia de Shannon ou das informações de Shannon?

10

Suponha que é um conjunto de resultados mutuamente exclusivos de uma variável aleatória discreta ef é uma função de utilidade em que 0 < f ( ω ) 1 , Ω f ( ω ) = 1 , etc.Ωf0<f(ω)1Ωf(ω)=1

Quando é uniformemente distribuída ao longo Ω e F é uma função de densidade de probabilidade , a entropia de Shannon H ( Ω ) = Σ Ω f ( ω ) l S g 1fΩf é maximizado (=log|Ω|), e quando um elemento emΩtem todaa massadef, a entropia de Shannon é minimizada (0, de fato). Isso corresponde a intuições sobrevariáveis ​​surpreendentes(ouredução da incerteza) e resultados eincerteza(ousurpresas esperadas) e aleatórias:H(Ω)=Ωf(ω)log1f(ω)=log|Ω|)Ωf0

  • Quando é uniformemente distribuído, a incerteza é maximizada e quanto mais resultados houver para a massa ser uniformemente distribuída, mais incertos somos.f
  • Quando tem toda a sua massa concentrada em um resultado, não temos incerteza.f
  • Quando atribuímos a um resultado uma probabilidade de , não obtemos informações (não estamos surpresas) quando realmente as observamos.1
  • Quando atribuímos a um resultado uma probabilidade cada vez mais próxima de , a observação da ocorrência real se torna cada vez mais informativa ("surpreendente").0

(Tudo isso não diz nada sobre a interpretação muito mais concreta - mas menos epistêmica - da informação / entropia de Shannon, é claro).

No entanto, quando tem a interpretação de uma função de utilidade , existe uma interpretação sensorial de l o g 1f ouf(ω)log1log1f(ω) ? Parece-me que pode haver:f(ω)log1f(ω)

  • se como um PMF representa uma distribuição uniforme sobre Ω , então f como uma função de utilidade corresponde à indiferença sobre os resultados que não poderiam ser maiores *fΩf
  • uma função de utilidade em que um resultado tem toda a utilidade e o restante não tem nenhuma (tão distorcida quanto possível), corresponde a preferências relativas muito fortes - falta de indiferença.

Existe uma referência expandindo isso? Perdi alguma coisa sobre as limitações na comparação de funções de massa de probabilidade e utilitários relativos normalizados sobre variáveis ​​aleatórias discretas?

* Estou ciente das curvas de indiferença e não vejo como elas podem ser relevantes para minha pergunta por vários motivos, começando com meu foco em um espaço de amostra categórico e com o fato de não estar interessado em 'indiferença', mas como interpretar utilidades como probabilidades e como interpretar funcionais em probabilidades quando a (discreta) 'distribuição de probabilidades' em questão realmente ou (adicionalmente) tem a interpretação de uma função de utilidade.

EM23
fonte
n

Respostas:

3

Antes da discussão sobre a entropia de Shannon, há outro ponto a ser discutido: parece que você tem em mente a utilidade cardinal , e não a ordinal .

É claro que funções utilitárias "normalizadas" podem ser derivadas em ambos os casos. Mas o conceito de "preferência relativa" pode ser definido e medido apenas no contexto da utilidade cardinal.

E a questão não surge nos dois extremos que você descreve, mas em todos os casos intermediários possíveis.

A,B,C

V(A)=1,V(B)=9,V(C)=90

Sob utilidade ordinal, isso apenas nos diz que

A<prB<prC

100

UV(A)=0.01,UV(B)=0.09,UV(C)=0.9

Mas sob a utilidade ordinal, poderíamos muito bem usar outra função de utilidade que atribuiria

W(A)=31,W(B)=32,W(C)=37

e obter

UW(A)=0.31,UW(B)=0.32,UW(C)=0.37

VW

WV

Você está familiarizado com os problemas que envolvem a utilidade cardinal?

Alecos Papadopoulos
fonte
VU
3

Após a troca com o OP em minha outra resposta, vamos trabalhar um pouco com sua abordagem.

XX={x1,...,xk}Pr(X=xi)=pi,i=1,...,k

Os valores no suporte de também são inseridos em uma função de utilidade cardinal com valor real , . Consideramos então a função de utilidade normalizadaXu(xi)>0i

(1)w(X):w(xi)=u(xi)i=1ku(xi),i=1,...,k

e nos disseram que

(2)w(xi)=pi

Observe que não fazemos apenas a observação de que uma função discreta normalizada não negativa do domínio finito satisfaz as propriedades de uma função de massa de probabilidade em geral - assumimos especificamente que possui a forma funcional do PMF da variável aleatória. variável cujos valores como entradas.w(xi)w(xi)

Como é uma função mensurável de uma variável aleatória, também é uma variável aleatória. Portanto, podemos considerar significativamente coisas como seu valor esperado. Usando a Lei do Estatístico Inconsciente, temosw(xi)

(3)E[w(X)]=i=1kpiw(xi)=i=1kpi2

Essa é uma função convexa e, se tentarmos extrapolá-la sobre os sob a restrição , obteremos facilmentepii=1kpi=1

(4)argminE[w(X)]=p:p1=p2=...=pk=1/k

e obtivemos um resultado geral:

A função de utilidade normalizada, conforme definida acima, possui um valor mínimo esperado, se a distribuição de for Uniforme.X

Obviamente, nesse caso, será uma função constante , uma variável aleatória degenerada com variação zero.w(X) E[w(X)]=1/k

Vamos passar para a Entropy de Shannon, que é o foco do OP. Para ser calculada, a Entropia de Shannon precisa da função de massa probabilística da variável aleatória ... portanto, devemos encontrar o PMF da variável aleatória ... w(X)

Mas tenho a impressão de que não é isso que o OP tem em mente. Em vez disso, vê a Entropia de Shannon como uma métrica que possui algumas propriedades algébricas desejáveis ​​e talvez possa medir de forma compacta, de maneira significativa, algo de interesse.

Isso já foi feito antes em Economia, especificamente na Organização Industrial, onde índices de concentração de mercado ("grau de concorrência / estrutura monopolística de um mercado") foram construídos. Noto dois que parecem particularmente relevantes aqui.

A) O Índice Herfindahl tem como argumento as quotas de mercado das empresas que operam em um mercado, , de modo que elas somam a unidade por construção. Sua versão não escalada énsi

H=i=1nsi2

que é uma expressão que tem exatamente a mesma estrutura com o valor esperado de derivado acima.w(X)

B) O índice de entropia que tem a forma matemática exata da Entropia de Shannon.

Re=i=1nsilnsi

Encaoua, D. & Jacquemin, A. (1980). Grau de monopólio, índices de concentração e ameaça de entrada. International Economic Review, 87-105. , fornecem uma derivação axiomática de índices de concentração "permitidos", ou seja, eles definem as propriedades que esse índice deve possuir. Como a abordagem deles é abstrata, acredito que possa ser útil ao que o OP deseja explorar e atribuir significado.

Alecos Papadopoulos
fonte
1

Parece que a função de utilidade não é apenas cardinal aqui, mas mesmo definida em uma escala de proporção. Considere dois resultados com os utilitários 1/4 e 3/4. Claramente, podemos aplicar a transformação afim: nesse caso, os utilitários se tornam 0 e 1. No entanto, agora alteramos a entropia de um valor estritamente positivo para zero!v=v20.5

Assim, você precisaria primeiro fornecer uma escala de proporção significativa para sua utilidade. Uma maneira de fazer isso é interpretar o nível de utilidade 0 natural. Sem essa especificação, a entropia não tem sentido.

HRSE
fonte