Alguém pode explicar qual é a interpretação natural para os hiperparâmetros LDA? ALPHA
e BETA
são parâmetros de distribuições Dirichlet para distribuições de tópicos (por documento) e (por tópico) palavras, respectivamente. No entanto, alguém pode explicar o que significa escolher valores maiores desses hiperparâmetros versus valores menores? Isso significa colocar alguma crença anterior em termos de escassez de tópicos em documentos e exclusividade mútua de tópicos em termos de palavras?
Esta questão é sobre alocação latente de Dirichlet, mas o comentário do BGReene imediatamente abaixo se refere à análise discriminante linear, que também é abreviada como LDA.
interpretation
prior
topic-models
hyperparameter
abhinavkulkarni
fonte
fonte
Respostas:
David Blei tem uma ótima palestra apresentando o LDA a alunos de uma turma de verão: http://videolectures.net/mlss09uk_blei_tm/
No primeiro vídeo, ele aborda extensivamente a idéia básica da modelagem de tópicos e como a distribuição Dirichlet entra em cena. A notação de placa é explicada como se todas as variáveis ocultas fossem observadas para mostrar as dependências. Basicamente, os tópicos são distribuições por palavras e distribuições de documentos por tópicos.
No segundo vídeo, ele mostra o efeito do alfa com alguns exemplos de gráficos. Quanto menor o alfa, mais esparsa é a distribuição. Além disso, ele introduz algumas abordagens de inferência.
fonte
A resposta depende se você está assumindo a distribuição de dirichlet simétrico ou assimétrico (ou, mais tecnicamente, se a medida base é uniforme). A menos que outra coisa seja especificada, a maioria das implementações do LDA assume que a distribuição é simétrica.
Para a distribuição simétrica, um alto valor alfa significa que cada documento provavelmente conterá uma mistura da maioria dos tópicos, e não um tópico específico. Um baixo valor alfa impõe menos restrições a esses documentos e significa que é mais provável que um documento contenha apenas alguns, ou mesmo apenas um dos tópicos. Da mesma forma, um alto valor beta significa que é provável que cada tópico contenha uma mistura da maioria das palavras, e não qualquer palavra especificamente, enquanto um valor baixo significa que um tópico pode conter uma mistura de apenas algumas palavras.
Se, por outro lado, a distribuição for assimétrica, um alto valor alfa significa que uma distribuição de tópico específica (dependendo da medida base) é mais provável para cada documento. Da mesma forma, valores beta altos significam que cada tópico tem mais probabilidade de conter uma mistura específica de palavras definida pela medida base.
Na prática, um alto valor alfa levará os documentos a serem mais semelhantes em termos de quais tópicos eles contêm. Um valor beta alto também levará os tópicos a serem mais semelhantes em termos de quais palavras eles contêm.
Portanto, sim, os parâmetros alfa especificam crenças anteriores sobre escassez / uniformidade de tópicos nos documentos. Não tenho muita certeza do que você quer dizer com "exclusividade mútua de tópicos em termos de palavras".
Mais geralmente, esses são parâmetros de concentração para a distribuição de dirichlet usada no modelo de LDA. Para obter uma compreensão intuitiva de como isso funciona, esta apresentação contém algumas ilustrações agradáveis, além de uma boa explicação do LDA em geral.
Um comentário adicional que colocarei aqui, já que não posso comentar sua pergunta original: Pelo que vi, os parâmetros alfa e beta podem se referir de maneira um tanto confusa a várias parametrizações diferentes. A distribuição subjacente do dirichlet geralmente é parametrizada com o vetor , mas isso pode ser decomposto na medida base e na concentração parâmetro , de modo que . No caso em que o parâmetro alfa é um escalar, geralmente significa o parâmetro de concentração , mas também pode significar os valores deL = ( U 1 , U 2 , . . . , U K ) α α * u = ( α 1 , ct 2 , . . . , Α K ) α ( α 1 , ct 2 , . . . ,( α1, α2, . . . , αK) u = ( u1, u2, . . . , uK) α α ∗ u = ( α1, α2, . . . , αK) α ( α1, α2, . . . , αK) , uma vez que estes serão iguais na distribuição de dirichlet simétrico. Se for um vetor, geralmente se refere a . Não sei ao certo qual parametrização é mais comum, mas, em minha resposta, suponho que você quis dizer os valores alfa e beta como parâmetros de concentração.( α1, α2, . . . , αK)
fonte