A comunidade de aprendizado de máquina está abusando "condicionada" e "parametrizada por"?

13

Digamos, é dependente de α . Rigorosamente falando,Xα

  • se e α são variáveis ​​aleatórias, poderíamos escrever p ( X α ) ;Xαp(Xα)

  • no entanto, se é uma variável aleatória e α é um parâmetro, temos que escrever p ( X ; α ) .Xαp(X;α)

Percebo várias vezes que a comunidade de aprendizado de máquina parece ignorar as diferenças e abusar dos termos.

Por exemplo, no famoso modelo LDA, em que é o parâmetro Dirichlet em vez de uma variável aleatória.α

insira a descrição da imagem aqui

Não deveria ser ? Eu vejo muitas pessoas, incluindo os autores originais do artigo da LDA, escrevendo como p ( θ α ) .p(θ;α)p(θα)

Sibbs Gambling
fonte
6
Matematicamente falando, você sempre pode condicionar uma constante, pois esse é um caso limitante de variável aleatória. Do ponto de vista bayesiano, todas as incógnitas são tratadas como variáveis ​​aleatórias, por isso faz sentido usar a notação de condicionamento por toda parte.
Xian
1
@ Xi'an Eu entendo o seu ponto de vista sobre "condicionamento constante". Mas imagine que eu desenhe partir de uma distribuição categórica do parâmetro θ , ou seja, X C a t ( θ ) . Posso escrever a distribuição como p ( X θ ) ? Isso me parece estranho, pois sempre é possível definir um θ fixo . p ( X ; θ ) me parece mais confortável. XθXCumat(θ)p(Xθ)θp(X;θ)
Sibbs Gambling
4
p(Xθ)

Respostas:

14

Eu acho que isso é mais sobre estatísticas bayesianas / não bayesianas do que sobre machine learning vs .. estatísticas.

X,αp(Xα)Xαααp(X;α)p(Xα)p(α)ααα

p(X;α)p(Xα)p

Juho Kokkala
fonte