Perplexidade e entropia cruzada para modelos n-grama

10

Tentando entender a relação entre entropia cruzada e perplexidade. Em geral, para um modelo M , Perplexidade (M) = 2 ^ entropia (M) . Essa relação vale para todos os n-gramas diferentes, como unigrama, bigram etc.?

Margalit
fonte
Essa é realmente a definição de perplexidade; a coisa é derivada disso;)Πi=1N1P(wi|w1,...wi1)N
WavesWashSands

Respostas:

9

Sim, a perplexidade é sempre igual a dois ao poder da entropia. Não importa que tipo de modelo você tenha, n-grama, unigrama ou rede neural.

Existem algumas razões pelas quais as pessoas que modelam a linguagem gostam de perplexidade, em vez de apenas usar entropia. Uma é que, por causa do expoente, as melhorias na perplexidade "parecem" serem mais substanciais do que a melhoria equivalente na entropia. Outra é que, antes de começarem a usar a perplexidade, a complexidade de um modelo de linguagem era relatada usando uma medição simplificada do fator de ramificação mais semelhante à perplexidade do que à entropia.

Aaron
fonte
1

Concordou com a resposta @Aaron com uma ligeira modificação:

Nem sempre é igual a dois ao poder da entropia. Na verdade, será (base para o log) o poder da entropia. Se você usou e como sua base, então seria entropia.

Prashant Gupta
fonte