Qual é a razão pela qual uma função de probabilidade não é um pdf?

57

Por que uma função de probabilidade não é um pdf (função de densidade de probabilidade)?

John Doe
fonte
6
A função de probabilidade é uma função do parâmetro desconhecido (condicionado nos dados). Como tal, normalmente não possui a área 1 (ou seja, a integral sobre todos os valores possíveis de não é 1) e, portanto, por definição, não é um pdf. θθ
MånsT
3
A mesma pergunta no MO há 2 anos: mathoverflow.net/questions/10971/…
Douglas Zare
3
Referência interessante, @Douglas. As respostas são bastante insatisfatórias, IMHO. O aceito pressupõe coisas que simplesmente não são verdadeiras (" e são pdfs": não !) E os outros realmente não entendem as questões estatísticas. p(X|m)p(m|X)
whuber
2
+1 whuber. É incrível que haja respostas tão ruins no site mathoverflow, apesar de seu nível matemático tão alto!
Stéphane Laurent
11
@ Stephanie: Isso é verdade, mas estatísticos e até probabilistas parecem ser bastante poucos e distantes no MO, com algumas exceções notáveis. Essa pergunta foi bem no início da existência do MO, quando as perguntas geralmente admissíveis e a qualidade das respostas eram substancialmente diferentes.
cardeal

Respostas:

61

Começaremos com duas definições:

  • Uma função de densidade de probabilidade (pdf) é uma função não negativa que se integra a .1

  • A probabilidade é definida como a densidade conjunta dos dados observados em função do parâmetro. Mas, como apontado pela referência a Lehmann feita por @whuber em um comentário abaixo, a função de probabilidade é uma função apenas do parâmetro, com os dados mantidos como uma constante fixa. Portanto, o fato de ser uma densidade em função dos dados é irrelevante.

Portanto, a função de verossimilhança não é um pdf porque sua integral em relação ao parâmetro não é necessariamente igual a 1 (e pode não ser totalmente integrável, na verdade, como apontado por outro comentário do @whuber).

Para ver isso, usaremos um exemplo simples. Suponha que você tenha uma única observação, , de uma distribuição . Então a função de probabilidade éB e r n o u l l i ( θ )xBernoulli(θ)

L(θ)=θx(1θ)1x

É um fato que . Especificamente, se , então , entãox = 1 L ( θ ) = θ 1 0 L ( θ ) d θ = 1 0 θ d θ = 1 / 201L(θ)dθ=1/2x=1L(θ)=θ

01L(θ)dθ=01θ dθ=1/2

e um cálculo semelhante se aplica quando . Portanto, não pode ser uma função de densidade.L ( θ )x=0L(θ)

Talvez ainda mais importante que este exemplo técnico, mostrando por que a probabilidade não é uma densidade de probabilidade, seja apontar que a probabilidade não é a probabilidade do valor do parâmetro estar correto ou algo parecido - é a probabilidade (densidade) dos dados dado o valor do parâmetro , que é uma coisa completamente diferente. Portanto, não se deve esperar que a função de probabilidade se comporte como uma densidade de probabilidade.

Macro
fonte
12
+1 Um ponto sutil é que mesmo a aparência do " " na integral não faz parte da função de probabilidade; vem do nada. Entre as muitas maneiras de ver isso, considere que uma reparameterização não altera nada essencial sobre a probabilidade - é apenas uma renomeação do parâmetro - mas altera a integral. Por exemplo, se parametrizarmos as distribuições de Bernoulli com as probabilidades de log , a integral nem convergirá. ψ = log ( θ / ( 1 - θ ) )dθψ=log(θ/(1θ))
whuber
3
Essa é uma maneira de dizer: os MLEs são invariantes sob transformações monótonas, mas as densidades de probabilidade não são, QED! Esse foi exatamente o argumento de Fisher, que descrevi em um comentário à resposta de @Michael Chernick.
whuber
4
+1 no comentário do whuber. O " " nem sequer tem um sentido em geral, porque não existe nem um campo no espaço de parâmetros! σdθσ
Stéphane Laurent
11
@PatrickCaldon A única restrição de continuidade está no cdf, que requer continuidade correta. Você precisa disso para que sua probabilidade não vá de definida para indefinida e (possivelmente) de volta, o que seria estranho. Não tenho 100% de certeza, mas acho que, desde que você tenha seu cdf e, portanto, uma probabilidade, você nem precisa ser capaz de resolver . Se você puder, isso garante apenas que o RV seja contínuo. Df
Joey
11
(+1) Deixe-me ser o primeiro a parabenizá-lo por atingir 10.000 representantes! Boa resposta; Eu gosto do exemplo que você dá, em particular. Felicidades. :)
cardeal
2

Ok, mas a função de probabilidade é a densidade de probabilidade conjunta para os dados observados, dado o parâmetro . Como tal, pode ser normalizado para formar uma função de densidade de probabilidade. Portanto, é essencialmente como um pdf.θ

Michael Chernick
fonte
3
Então, você está apenas apontando que a probabilidade é integrável com relação ao parâmetro (isso sempre é verdade?). Suponho que você esteja aludindo à relação da probabilidade com a distribuição posterior quando um prior plano for usado, mas sem mais explicações essa resposta permanece misteriosa para mim.
Macro
6
Integrar à unidade não vem ao caso. Fisher, em um artigo de 1922, Sobre os fundamentos matemáticos da estatística teórica, observou que, de fato, geralmente a probabilidade pode ser "normalizada" para integrar-se à unidade ao multiplicar por uma função adequada para que . O que ele objetou é a arbitrariedade : existem muitos que funcionam. "... a palavra probabilidade é usada incorretamente em tal conexão: probabilidade é uma razão de frequências, e sobre as frequências de tais valores não podemos saber nada." p ( θ ) L ( θ ) p ( θ ) d θ = 1 pL(θ)p(θ)L(θ)p(θ)dθ=1p
whuber
11
@ Néstor (e Michael) - parece que eu e a whuber interpretamos essa pergunta como perguntando por que a probabilidade não é uma função de densidade, como uma função deθ pelo que parece que estamos respondendo a perguntas diferentes. Obviamente, a probabilidade é a função de densidade das observações (dado o valor do parâmetro) - é assim que é definida.
Macro
2
Michael, acho que a interpretamos dessa maneira porque a probabilidade é uma função de , portanto, se fosse uma densidade, seria uma densidade em . Eu posso imaginar interpretá-lo da maneira que você tem, mas essa possibilidade não me ocorreu até depois de ler o comentário de Nestor. θθθ
Macro
4
Acho que a ambiguidade é criada por esta resposta, mas não está presente na pergunta. Como o @Macro aponta, a probabilidade é uma função apenas do parâmetro. ( Por exemplo , "A densidade , considerada para fixo como uma função de , é chamada de função de probabilidade : EL Lehmann, Teoria da estimativa de pontos , seção 6.2 .) Assim, a questão é clara Respondendo, então, que a "probabilidade é a densidade de probabilidade conjunta" não esclarece, mas confunde a questão..x θf(x1,θ)f(xn,θ)xθ
whuber
1

Não sou estatístico, mas meu entendimento é que, embora a função de probabilidade em si não seja um PDF com relação aos parâmetros, ela está diretamente relacionada a esse PDF pela regra de Bayes. A função de verossimilhança, P (X | teta), e a distribuição posterior, f (teta | X), estão fortemente ligadas; não é "uma coisa completamente diferente".

santayana
fonte
11
Bem vindo ao nosso site! Você pode encontrar material interessante nos comentários para outras respostas neste tópico. Alguns deles apontam por que a Regra de Bayes não se aplica, a menos que maquinaria matemática adicional seja explicitamente introduzida (como um campo Sigma para o parâmetro).
whuber
Obrigado @whuber. Eu não notei nenhuma referência à Regra de Bayes em outro lugar do tópico, mas suponho que haja alusões nos comentários, supondo que uma seja suficientemente fluente na probabilidade de pós-graduação para buscá-las (o que não sou). Você não concorda que colocar a função de probabilidade no contexto da Regra de Bayes fornece intuição útil para a pergunta do OP?
22815 santayana
A aplicação da regra de Bayes não é possível sem assumir uma distribuição de probabilidade para : a distinção entre essa distribuição e a distribuição dos dados como uma função de é o quase tudo. Supondo implicitamente que exista ou possa haver tal distribuição é a fonte da confusão discutida no tópico de comentários da resposta de Michael Chernick. Concordo, portanto, que uma discussão clara e cuidadosa sobre esse ponto pode ser útil, mas qualquer coisa menos que isso arrisca a criar uma maior confusão. θθθ
whuber
Minhas desculpas, à primeira vista, esse tópico parecia pouco mais do que um mal-entendido, mas agora vejo os comentários relevantes a que você se refere, em particular sua citação de Fisher. Mas isso não se resume a um debate bayesiano versus freqüentista? Não existe um grande número de praticantes de inferência bayesiana que argumentariam a favor de uma distribuição de probabilidade para teta? (se você concorda com eles é outra questão ...)
santayana
11
Sim, o debate B vs. F está à espreita aqui. Um freqüentador atencioso usará alegremente a Regra de Bayes quando houver uma base para adotar uma distribuição anterior para , mas separa a empresa dos bayesianos ao negar que devemos adotar uma prévia. Podemos entender como essa pergunta foi formulada. Se, em vez disso, perguntasse "por que alguém pode tratar a função de probabilidade como um PDF (para os parâmetros)", isso teria direcionado essa conversa ao longo das linhas bayesianas. Mas, perguntando pelo negativo, o OP estava procurando que examinássemos a probabilidade de um ponto de vista freqüentista. θ
whuber
1

A probabilidade é definida como , onde se f (x; θ) é uma função de massa de probabilidade , então a probabilidade é sempre menor que uma, mas se f (x; θ) for uma função de densidade de probabilidade, a probabilidade poderá ser maior que uma, pois as densidades podem ser maiores que uma.L(θ;x1,...,xn)=f(x1,...,xn;θ)

Normalmente as amostras são tratadas iid, então:
L(θ;x1,...,xn)=f(x1,...,xn;θ)=jf(xj;θ)

Vamos ver sua forma original:

De acordo com a inferência bayesiana, mantém, isto é, . Observe que a estimativa de probabilidade máxima trata a razão de evidência para anterior como uma constante (consulte as respostas desta pergunta ), o que omite as crenças anteriores. A probabilidade tem uma correlação positiva com a posterior, com base nos parâmetros estimados. pode ser um pdf, mas não é, pois é apenas uma parte de que é intratável. f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)L^=posteriorevidencepriorL LL LL^LLL^

Por exemplo, não sei a variação média e padrão de uma distribuição gaussiana e quero obtê-los treinando usando muitas amostras dessa distribuição. Inicialmente, inicializo a variância média e padrão aleatoriamente (que define uma distribuição gaussiana) e, em seguida, pego uma amostra e me encaixo na distribuição estimada e posso obter uma probabilidade a partir da distribuição estimada. Depois, continuo colocando a amostra e obtendo muitas probabilidades, e multiplico essas probabilidades e obtenho uma pontuação. Esse tipo de pontuação é a probabilidade. Dificilmente pode haver uma probabilidade de um determinado pdf.

Lerner Zhang
fonte