Me deparei com a perplexidade do termo, que se refere à probabilidade inversa com média de log em dados invisíveis. O artigo da Wikipedia sobre perplexidade não fornece um significado intuitivo para o mesmo.
Essa medida de perplexidade foi usada em papel pLSA .
Alguém pode explicar a necessidade e o significado intuitivo da medida de perplexidade ?
measurement
perplexity
Aprendiz
fonte
fonte
Respostas:
Você consultou o artigo da Wikipedia sobre perplexidade . Dá a perplexidade de uma distribuição discreta como
que também pode ser escrito como
isto é, como uma média geométrica ponderada dos inversos das probabilidades. Para uma distribuição contínua, a soma se tornaria uma integral.
O artigo também fornece uma maneira de estimar a perplexidade de um modelo usando partes de dados de testeN
que também poderia ser escrito
ou de várias outras maneiras, e isso deve tornar ainda mais claro a origem da "probabilidade inversa da média logarítmica".
fonte
Achei isso bastante intuitivo:
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
fonte
Eu também me perguntei isso. A primeira explicação não é ruim, mas aqui estão meus 2 nats para o que vale a pena.
Antes de tudo, perplexidade não tem nada a ver com a caracterização de quantas vezes você adivinha algo certo. Tem mais a ver com a caracterização da complexidade de uma sequência estocástica.
Estamos vendo uma quantidade,2−∑xp(x)log2p(x)
Vamos primeiro cancelar o log e a exponenciação.
Acho que vale ressaltar que a perplexidade é invariável com a base usada para definir entropia. Portanto, nesse sentido, a perplexidade é infinitamente mais única / menos arbitrária do que a entropia como medida.
Relação com Dados
Vamos brincar um pouco com isso. Digamos que você está apenas olhando uma moeda. Quando a moeda é justa, a entropia é máxima e a perplexidade é máxima de11212×1212=2
Agora, o que acontece quando olhamos para um dado de lados? A perplexidade éN 1(1N1N)N=N
Portanto, a perplexidade representa o número de lados de um dado justo que, quando rolado, produz uma sequência com a mesma entropia que sua distribuição de probabilidade fornecida.
Número de Estados
OK, agora que temos uma definição intuitiva de perplexidade, vamos dar uma olhada rápida em como ela é afetada pelo número de estados em um modelo. Vamos começar com uma distribuição de probabilidade nos estados e criar uma nova distribuição de probabilidade nos estados , de modo que a taxa de probabilidade dos estados originais permaneça a mesma e o novo estado tenha probabilidade . No caso de começar com um dado de face justo , podemos imaginar a criação de um novo dado de modo que o novo lado seja rolado com probabilidade e o originalN N+1 N ϵ N N+1 ϵ N lados são rolados com igual probabilidade. Portanto, no caso de uma distribuição de probabilidade original arbitrária, se a probabilidade de cada estado for dada por , a nova distribuição dos estados originais , dado o novo estado, será e a nova perplexidade será dada por:x px N p′x=px(1−ϵ)
No limite como , essa quantidade se aproxima deϵ→0 1∏Nxpxpx
Assim, à medida que você torna cada vez mais improvável a rolagem de um lado do dado, a perplexidade acaba parecendo como se o lado não existisse.
fonte
Na verdade, existe uma conexão clara entre a perplexidade e as chances de adivinhar corretamente um valor de uma distribuição, dada por Elementos da teoria da informação de Cover 2ed (2.146): Se e são variáveis iid, entãoX X′
Para explicar, a perplexidade de uma distribuição uniforme X é apenas | X |, o número de elementos. Se tentarmos adivinhar os valores que iid amostras de uma distribuição uniforme X tomarão simplesmente fazendo suposições iid de X, estaremos corretos 1 / | X | = 1 / perplexidade do tempo. Como a distribuição uniforme é a mais difícil de adivinhar valores, podemos usar 1 / perplexidade como uma aproximação limite / heurística mais baixa para a frequência com que nossas suposições estarão corretas.
fonte