O que é perplexidade?

42

Me deparei com a perplexidade do termo, que se refere à probabilidade inversa com média de log em dados invisíveis. O artigo da Wikipedia sobre perplexidade não fornece um significado intuitivo para o mesmo.

Essa medida de perplexidade foi usada em papel pLSA .

Alguém pode explicar a necessidade e o significado intuitivo da medida de perplexidade ?

Aprendiz
fonte
Como faço para calcular a perplexidade do pLSA. Eu tenho datamatrix que tem a contagem e pelo algoritmo TEM e são calculados. p ( d ) p ( w | d )Xp(d)p(w|d)
Learner
3
Verifiquei os índices de cinco livros de mineração de dados / aprendizado de máquina / análise preditiva de Nisbett, Larose, Witten, Torgo e Shemueli (mais co-autores) e esse termo não ocorre em nenhum deles. Estou perplexo :)
zbicyclist
1
Perplexidade é outro nome sofisticado para incerteza. Pode ser considerada uma avaliação intrínseca contra avaliação extrínseca. Jan Jurafsky explica elegantemente com exemplos de acordo com a linguagem de modelagem aqui no youtube.com/watch?v=BAN3NB_SNHY
bicepjai
2
@ zbicyclist, Se você está procurando exemplos na natureza, é particularmente comum na PNL, e especificamente na avaliação de coisas como modelos de linguagem.
Matt Krause
Em alguns campos (por exemplo, economia), as pessoas falam sobre os números equivalentes, de modo que, por exemplo, onde é entropia baseada em logaritmos naturais, é um número equivalente de categorias igualmente comuns. Portanto, duas categorias, cada uma com probabilidade 0,5, produzem entropia de e exponenciação retornam 2 como o número de categorias igualmente comuns. Para probabilidades desiguais, o número equivalente em geral não é um número inteiro. H ln 2exp(H)Hln2
Nick Cox

Respostas:

21

Você consultou o artigo da Wikipedia sobre perplexidade . Dá a perplexidade de uma distribuição discreta como

2xp(x)log2p(x)

que também pode ser escrito como

exp(xp(x)loge1p(x))

isto é, como uma média geométrica ponderada dos inversos das probabilidades. Para uma distribuição contínua, a soma se tornaria uma integral.

O artigo também fornece uma maneira de estimar a perplexidade de um modelo usando partes de dados de testeN

2i=1N1Nlog2q(xi)

que também poderia ser escrito

exp(i=1Nloge(1q(xi))N) or i=1N1q(xi)N

ou de várias outras maneiras, e isso deve tornar ainda mais claro a origem da "probabilidade inversa da média logarítmica".

Henry
fonte
Existe alguma distinção em particular entre quando e é usado como expoente em vez de 2?
Henry E
2
@HenryE: não, e logaritmos comuns fundado a iria trabalhar muito - logaritmos em bases diferentes são proporcionais entre si e claramentea log a x = b log b x10alogax=blogbx
Henry
Eu imaginei isso. Me deparei com essa resposta quando estava tentando entender por que um pedaço de código estava usando e para calcular a perplexidade quando todas as outras formulações que eu já havia visto usavam 2. Agora percebo o quanto é importante saber qual o valor de uma estrutura usa como base para o cálculo da perda de log
Henry E
27

Achei isso bastante intuitivo:

A perplexidade do que você está avaliando, dos dados em que você está avaliando, meio que diz a você "essa coisa está certa com a mesma frequência que um dado de lado x seria".

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

pandasEverywhere
fonte
Esse é um artigo interessante; talvez não tão profundamente, mas uma boa leitura introdutória.
Monica Heddneck
1
Também achei este artigo útil, jamesmccaffrey.wordpress.com/2016/08/16/…
user2561747
11

Eu também me perguntei isso. A primeira explicação não é ruim, mas aqui estão meus 2 nats para o que vale a pena.


Antes de tudo, perplexidade não tem nada a ver com a caracterização de quantas vezes você adivinha algo certo. Tem mais a ver com a caracterização da complexidade de uma sequência estocástica.

Estamos vendo uma quantidade,

2xp(x)log2p(x)

Vamos primeiro cancelar o log e a exponenciação.

2xp(x)log2p(x)=1xp(x)p(x)

Acho que vale ressaltar que a perplexidade é invariável com a base usada para definir entropia. Portanto, nesse sentido, a perplexidade é infinitamente mais única / menos arbitrária do que a entropia como medida.

Relação com Dados

Vamos brincar um pouco com isso. Digamos que você está apenas olhando uma moeda. Quando a moeda é justa, a entropia é máxima e a perplexidade é máxima de

11212×1212=2

Agora, o que acontece quando olhamos para um dado de lados? A perplexidade éN

1(1N1N)N=N

Portanto, a perplexidade representa o número de lados de um dado justo que, quando rolado, produz uma sequência com a mesma entropia que sua distribuição de probabilidade fornecida.

Número de Estados

OK, agora que temos uma definição intuitiva de perplexidade, vamos dar uma olhada rápida em como ela é afetada pelo número de estados em um modelo. Vamos começar com uma distribuição de probabilidade nos estados e criar uma nova distribuição de probabilidade nos estados , de modo que a taxa de probabilidade dos estados originais permaneça a mesma e o novo estado tenha probabilidade . No caso de começar com um dado de face justo , podemos imaginar a criação de um novo dado de modo que o novo lado seja rolado com probabilidade e o originalNN+1NϵNN+1ϵNlados são rolados com igual probabilidade. Portanto, no caso de uma distribuição de probabilidade original arbitrária, se a probabilidade de cada estado for dada por , a nova distribuição dos estados originais , dado o novo estado, será e a nova perplexidade será dada por:xpxN

px=px(1ϵ)

1ϵϵxNpxpx=1ϵϵxN(px(1ϵ))px(1ϵ)=1ϵϵxNpxpx(1ϵ)(1ϵ)px(1ϵ)=1ϵϵ(1ϵ)(1ϵ)xNpxpx(1ϵ)

No limite como , essa quantidade se aproxima deϵ0

1xNpxpx

Assim, à medida que você torna cada vez mais improvável a rolagem de um lado do dado, a perplexidade acaba parecendo como se o lado não existisse.

Alex Eftimiades
fonte
3
Certamente isso vale apenas ~ 1,39 nats?
Matt Krause
Você pode explicar como obter ? Eu só posso fazer
xNpxpx=(1ϵ)1ϵxNpxpx(1ϵ)
xNpxpx=xN(px(1ϵ))px(1ϵ)=xN(1ϵ)px(1ϵ)xNpxpx(1ϵ)
user2740
\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}
Alex Eftimiades
5

Na verdade, existe uma conexão clara entre a perplexidade e as chances de adivinhar corretamente um valor de uma distribuição, dada por Elementos da teoria da informação de Cover 2ed (2.146): Se e são variáveis ​​iid, entãoXX

P(X=X)2H(X)=12H(X)=1perplexity (1)

Para explicar, a perplexidade de uma distribuição uniforme X é apenas | X |, o número de elementos. Se tentarmos adivinhar os valores que iid amostras de uma distribuição uniforme X tomarão simplesmente fazendo suposições iid de X, estaremos corretos 1 / | X | = 1 / perplexidade do tempo. Como a distribuição uniforme é a mais difícil de adivinhar valores, podemos usar 1 / perplexidade como uma aproximação limite / heurística mais baixa para a frequência com que nossas suposições estarão corretas.

user49404
fonte