Qual é a diferença de significado entre a notação e que são comumente usadas em muitos livros e documentos?
probability
notation
Aprendiz
fonte
fonte
Respostas:
Acredito que a origem disso seja o paradigma da probabilidade (embora eu não tenha verificado a atual exatidão histórica do abaixo, é uma maneira razoável de entender como aconteceu).
Digamos que em uma configuração de regressão, você teria uma distribuição: p (Y | x, beta) O que significa: a distribuição de Y se você souber (condicional) os valores x e beta.
Se você deseja estimar os betas, deseja maximizar a probabilidade: L (beta; y, x) = p (Y | x, beta) Essencialmente, agora você está olhando a expressão p (Y | x, beta) como uma função dos beta, mas fora isso, não há diferença (para expressões matemáticas corretas que você pode derivar adequadamente, isso é uma necessidade - embora, na prática, ninguém se incomode).
Em seguida, em configurações bayesianas, a diferença entre parâmetros e outras variáveis desaparece rapidamente, de modo que você começou a usar as duas notações misturadas.
Então, em essência: não há diferença real: ambos indicam a distribuição condicional da coisa à esquerda, condicional à (s) coisa (s) à direita.
fonte
é a densidade da variável aleatória X no ponto x , sendo θ o parâmetro da distribuição. f ( x , θ ) é a densidade de conjunta de X e Θ no ponto ( x , θ ) e só faz sentido se Θ é uma variável aleatória. f ( x | θ ) é a distribuição condicional de X dada Θ e, novamente, só faz sentido sef(x;θ) X x θ f(x,θ) X Θ (x,θ) Θ f( x | θ ) X Θ é uma variável aleatória. Isso ficará muito mais claro quando você aprofundar o livro e analisar a análise bayesiana.Θ
fonte
fonte
Embora nem sempre tenha sido assim, hoje em dia é geralmente usado quando d , w não são variáveis aleatórias (o que não quer dizer que sejam conhecidas, necessariamente). P ( z | d , w ) indica condicionamento nos valores de d , w . O condicionamento é uma operação em variáveis aleatórias e, como tal, o uso dessa notação quando d , w não são variáveis aleatórias é confuso (e tragicamente comum).P( z; d, W ) d, w P( z| d, W ) d, w d, w
Como @Nick Sabbe aponta é uma notação comum para a distribuição amostral dos dados observados y . Alguns freqüentadores usarão essa notação, mas insistem que Θ não é uma variável aleatória, que é um IMO de abuso. Mas eles não têm monopólio lá; Também vi os bayesianos fazendo isso, aplicando hiperparâmetros fixos no final dos condicionais.p ( y| X, Θ ) y Θ
fonte