Por que uma função de probabilidade não é um pdf (função de densidade de probabilidade)?
likelihood
pdf
John Doe
fonte
fonte
Respostas:
Começaremos com duas definições:
Uma função de densidade de probabilidade (pdf) é uma função não negativa que se integra a .1
A probabilidade é definida como a densidade conjunta dos dados observados em função do parâmetro. Mas, como apontado pela referência a Lehmann feita por @whuber em um comentário abaixo, a função de probabilidade é uma função apenas do parâmetro, com os dados mantidos como uma constante fixa. Portanto, o fato de ser uma densidade em função dos dados é irrelevante.
Portanto, a função de verossimilhança não é um pdf porque sua integral em relação ao parâmetro não é necessariamente igual a 1 (e pode não ser totalmente integrável, na verdade, como apontado por outro comentário do @whuber).
Para ver isso, usaremos um exemplo simples. Suponha que você tenha uma única observação, , de uma distribuição . Então a função de probabilidade éB e r n o u l l i ( θ )x Bernoulli(θ)
É um fato que . Especificamente, se , então , entãox = 1 L ( θ ) = θ ∫ 1 0 L ( θ ) d θ = ∫ 1 0 θ d θ = 1 / 2∫10L(θ)dθ=1/2 x=1 L(θ)=θ
e um cálculo semelhante se aplica quando . Portanto, não pode ser uma função de densidade.L ( θ )x=0 L(θ)
Talvez ainda mais importante que este exemplo técnico, mostrando por que a probabilidade não é uma densidade de probabilidade, seja apontar que a probabilidade não é a probabilidade do valor do parâmetro estar correto ou algo parecido - é a probabilidade (densidade) dos dados dado o valor do parâmetro , que é uma coisa completamente diferente. Portanto, não se deve esperar que a função de probabilidade se comporte como uma densidade de probabilidade.
fonte
Ok, mas a função de probabilidade é a densidade de probabilidade conjunta para os dados observados, dado o parâmetro . Como tal, pode ser normalizado para formar uma função de densidade de probabilidade. Portanto, é essencialmente como um pdf.θ
fonte
Não sou estatístico, mas meu entendimento é que, embora a função de probabilidade em si não seja um PDF com relação aos parâmetros, ela está diretamente relacionada a esse PDF pela regra de Bayes. A função de verossimilhança, P (X | teta), e a distribuição posterior, f (teta | X), estão fortemente ligadas; não é "uma coisa completamente diferente".
fonte
A probabilidade é definida como , onde se f (x; θ) é uma função de massa de probabilidade , então a probabilidade é sempre menor que uma, mas se f (x; θ) for uma função de densidade de probabilidade, a probabilidade poderá ser maior que uma, pois as densidades podem ser maiores que uma.L(θ;x1,...,xn)=f(x1,...,xn;θ)
Normalmente as amostras são tratadas iid, então:
L(θ;x1,...,xn)=f(x1,...,xn;θ)=∏jf(xj;θ)
Vamos ver sua forma original:
De acordo com a inferência bayesiana, mantém, isto é, . Observe que a estimativa de probabilidade máxima trata a razão de evidência para anterior como uma constante (consulte as respostas desta pergunta ), o que omite as crenças anteriores. A probabilidade tem uma correlação positiva com a posterior, com base nos parâmetros estimados. pode ser um pdf, mas não é, pois é apenas uma parte de que é intratável.f(x1,...,xn;θ)=f(θ;x1,...,xn)∗f(x1,...,xn)f(θ) L^=posterior∗evidenceprior L LL LL^ L L L^
Por exemplo, não sei a variação média e padrão de uma distribuição gaussiana e quero obtê-los treinando usando muitas amostras dessa distribuição. Inicialmente, inicializo a variância média e padrão aleatoriamente (que define uma distribuição gaussiana) e, em seguida, pego uma amostra e me encaixo na distribuição estimada e posso obter uma probabilidade a partir da distribuição estimada. Depois, continuo colocando a amostra e obtendo muitas probabilidades, e multiplico essas probabilidades e obtenho uma pontuação. Esse tipo de pontuação é a probabilidade. Dificilmente pode haver uma probabilidade de um determinado pdf.
fonte