Interpretação natural para hiperparâmetros LDA

21

Alguém pode explicar qual é a interpretação natural para os hiperparâmetros LDA? ALPHAe BETAsão parâmetros de distribuições Dirichlet para distribuições de tópicos (por documento) e (por tópico) palavras, respectivamente. No entanto, alguém pode explicar o que significa escolher valores maiores desses hiperparâmetros versus valores menores? Isso significa colocar alguma crença anterior em termos de escassez de tópicos em documentos e exclusividade mútua de tópicos em termos de palavras?

Esta questão é sobre alocação latente de Dirichlet, mas o comentário do BGReene imediatamente abaixo se refere à análise discriminante linear, que também é abreviada como LDA.

interpretation prior topic-models hyperparameter abhinavkulkarni
fonte

Eu acho que você precisa dar mais detalhes sobre qual formulação de LDA você está usando. Geralmente, apenas os modelos RDA têm esses parâmetros; o LDA geralmente é definido inteiramente por vetor médio, matriz de covariância e probabilidades anteriores.

precisa saber é o seguinte

11

David Blei tem uma ótima palestra apresentando o LDA a alunos de uma turma de verão: http://videolectures.net/mlss09uk_blei_tm/

No primeiro vídeo, ele aborda extensivamente a idéia básica da modelagem de tópicos e como a distribuição Dirichlet entra em cena. A notação de placa é explicada como se todas as variáveis ocultas fossem observadas para mostrar as dependências. Basicamente, os tópicos são distribuições por palavras e distribuições de documentos por tópicos.

No segundo vídeo, ele mostra o efeito do alfa com alguns exemplos de gráficos. Quanto menor o alfa, mais esparsa é a distribuição. Além disso, ele introduz algumas abordagens de inferência.

Karsten
fonte

7

isso não deve ser a resposta aceita

samsamara

Acho que você está certo. Eu esqueci completamente que escrevi isso.

Karsten

ah! não esperava ver um comentário do autor! hehe :)

samsamara

48

A resposta depende se você está assumindo a distribuição de dirichlet simétrico ou assimétrico (ou, mais tecnicamente, se a medida base é uniforme). A menos que outra coisa seja especificada, a maioria das implementações do LDA assume que a distribuição é simétrica.

Para a distribuição simétrica, um alto valor alfa significa que cada documento provavelmente conterá uma mistura da maioria dos tópicos, e não um tópico específico. Um baixo valor alfa impõe menos restrições a esses documentos e significa que é mais provável que um documento contenha apenas alguns, ou mesmo apenas um dos tópicos. Da mesma forma, um alto valor beta significa que é provável que cada tópico contenha uma mistura da maioria das palavras, e não qualquer palavra especificamente, enquanto um valor baixo significa que um tópico pode conter uma mistura de apenas algumas palavras.

Se, por outro lado, a distribuição for assimétrica, um alto valor alfa significa que uma distribuição de tópico específica (dependendo da medida base) é mais provável para cada documento. Da mesma forma, valores beta altos significam que cada tópico tem mais probabilidade de conter uma mistura específica de palavras definida pela medida base.

Na prática, um alto valor alfa levará os documentos a serem mais semelhantes em termos de quais tópicos eles contêm. Um valor beta alto também levará os tópicos a serem mais semelhantes em termos de quais palavras eles contêm.

Portanto, sim, os parâmetros alfa especificam crenças anteriores sobre escassez / uniformidade de tópicos nos documentos. Não tenho muita certeza do que você quer dizer com "exclusividade mútua de tópicos em termos de palavras".

Mais geralmente, esses são parâmetros de concentração para a distribuição de dirichlet usada no modelo de LDA. Para obter uma compreensão intuitiva de como isso funciona, esta apresentação contém algumas ilustrações agradáveis, além de uma boa explicação do LDA em geral.

Um comentário adicional que colocarei aqui, já que não posso comentar sua pergunta original: Pelo que vi, os parâmetros alfa e beta podem se referir de maneira um tanto confusa a várias parametrizações diferentes. A distribuição subjacente do dirichlet geralmente é parametrizada com o vetor , mas isso pode ser decomposto na medida base e na concentração parâmetro , de modo que . No caso em que o parâmetro alfa é um escalar, geralmente significa o parâmetro de concentração , mas também pode significar os valores de $(\alpha_1, \alpha_2, ... ,\alpha_K)$ $u = (u_1, u_2, ..., u_K)$ $\alpha$ $\alpha * \textbf{u} = (\alpha_1, \alpha_2, ... ,\alpha_K)$ $\alpha$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$ , uma vez que estes serão iguais na distribuição de dirichlet simétrico. Se for um vetor, geralmente se refere a . Não sei ao certo qual parametrização é mais comum, mas, em minha resposta, suponho que você quis dizer os valores alfa e beta como parâmetros de concentração. $(\alpha_1, \alpha_2, ... ,\alpha_K)$

AMO
fonte

2

+1 resposta informativa! Quero perguntar o quão alto / baixo é um valor alto / baixo para alfa e beta em geral?

precisa saber é

O beta deve ser uma distribuição sobre as palavras de cada tópico (uma matriz), certo? Então, como um único valor se traduz em uma matriz?

Noamiko 25/04/19

Estou certo ao concluir que alto alfa significa que os documentos são semelhantes e alto beta significa que os tópicos são semelhantes?

Lewistrick

Interpretação natural para hiperparâmetros LDA

Respostas: