Como definir rigorosamente a probabilidade?

30

A probabilidade pode ser definida de várias maneiras, por exemplo:

  • a função L de que mapeia para isto é, .Θ×X(θ,x)eu(θx)eu:Θ×XR

  • a função aleatóriaeu(X)

  • também podemos considerar que a probabilidade é apenas a probabilidade "observada"eu(xobs)

  • na prática, a probabilidade traz informações sobre apenas até uma constante multiplicativa; portanto, podemos considerar a probabilidade como uma classe de equivalência de funções, e não como uma funçãoθ

Outra questão ocorre quando se considera a mudança de parametrização: se é a nova parametrização que comumente designamos por a probabilidade em e essa não é a avaliação da função anterior em mas em . Essa é uma notação abusiva, mas útil, que pode causar dificuldades aos iniciantes se não for enfatizada.ϕ=θ2eu(ϕx)ϕeu(x)θ2ϕ

Qual é a sua definição rigorosa favorita da probabilidade?

Além disso, como você chama ? Eu costumo dizer algo como "a probabilidade em quando é observado".eu(θx)θx

EDIT: Tendo em vista alguns comentários abaixo, percebo que deveria ter precisado o contexto. Considero um modelo estatístico dado por uma família paramétrica de densidades em relação a alguma medida dominante, com cada definido no espaço de observações . Portanto, definimos e a pergunta é "o que é ?" (a questão não é sobre uma definição geral da probabilidade){f(θ),θΘ}f(θ)Xeu(θx)=f(xθ)eu

Stéphane Laurent
fonte
2
(1) Como para todo θ , acredito que mesmo a constante em L seja definida. (2) Se você pensa em parâmetros como ϕ e θ como sendo meramente coordenadas para uma variedade de distribuições, a mudança de parametrização não tem significado matemático intrínseco; é apenas uma mudança de descrição. (3) Os falantes nativos de inglês diriam mais naturalmente "probabilidade de θ " do que " ativado ". (4) A cláusula "quando x é observado" apresenta dificuldades filosóficas, porque a maioria de xeu(θ|x)dx=1 1θeuϕθ θxxnunca será observado. Por que não dizer apenas "probabilidade de dado x "? θx
whuber
11
@ whuber: Para (1), não acho que a constante esteja bem definida. Veja o livro de ET Jaynes, onde ele escreve: "que uma probabilidade não é uma probabilidade porque sua normalização é arbitrária".
Neil G
3
Você parece estar confundindo dois tipos de normalização, Neil: Jaynes estava se referindo à normalização pela integração sobre , não x . θx
whuber
11
@ whuber: Eu não acho que um fator de escala importará para o limite Cramer-Rao porque a alteração adiciona uma quantidade constante à probabilidade logarítmica, que desaparece quando a derivada parcial é obtida. k
Neil G
11
Concordo com Neil, não vejo qualquer aplicação onde a constante desempenha um papel
Stéphane Laurent

Respostas:

13

Seu terceiro item é o que eu vi com mais frequência como definição rigorosa.

Os outros também são interessantes (+1). Em particular, o primeiro é atraente, com a dificuldade de o tamanho da amostra ainda não estar definido (ainda), é mais difícil definir o conjunto "de".

Para mim, a intuição fundamental da probabilidade é que ela é uma função do modelo + seus parâmetros, não uma função das variáveis ​​aleatórias (também um ponto importante para fins de ensino). Então, eu me ateria à terceira definição.

A fonte do abuso de notação é que o conjunto "de" da probabilidade está implícito, o que geralmente não é o caso de funções bem definidas. Aqui, a abordagem mais rigorosa é perceber que, após a transformação, a probabilidade está relacionada a outro modelo. É equivalente ao primeiro, mas ainda outro modelo. Portanto, a notação de probabilidade deve mostrar a qual modelo ele se refere (por subscrito ou outro). Eu nunca faço isso, é claro, mas para ensinar, eu poderia.

Finalmente, para ser consistente com minhas respostas anteriores, digo a "probabilidade de " em sua última fórmula.θ

gui11aume
fonte
Obrigado. E qual é o seu conselho sobre a igualdade até uma constante multiplicativa?
Stéphane Laurent
Pessoalmente, prefiro chamá-lo quando necessário, em vez de codificá-lo na definição. E pense que, para seleção / comparação de modelos, essa igualdade "constante até multiplicativa" não se aplica.
precisa saber é o seguinte
Está bem. Com relação ao nome, você pode imaginar discutir sobre as probabilidades e L ( θ x 2 ) para duas possíveis observações. Nesse caso, você diria "a probabilidade de θ quando x 1 foi observado" ou "a probabilidade de θ para a observação x 1 " ou algo mais? L(θx1)L(θx2)θx1 1θx1 1
Stéphane Laurent
11
Se você parametrizar novamente o seu modelo com na verdade você calculará a probabilidade como uma composição de funções L ( . | X ) g ( . ) Onde g ( y ) = y 2 . Nesse caso, g passa de R para R +, portanto, o conjunto de definições (mencionado como "de" conjunto) da probabilidade não é mais o mesmo. Você pode chamar a primeira função L 1 ( . | )ϕ=θ2eu(.|x)g(.)g(y)=y2gRR+eu1 1(.|)e o segundo porque não são as mesmas funções. eu2(.|)
precisa saber é o seguinte
11
Como a terceira definição é rigorosa? E qual é o problema com o tamanho da amostra não estar definido? Como dizemos , o que naturalmente cria uma álgebra sigma correspondente para o espaço de amostra Ω n , por que não podemos ter a definição paralela de verossimilhanças? P(x1,x2,,xnθ)Ωn
Neil G
8

Eu acho que chamaria de algo diferente. Probabilidade é a densidade de probabilidade para o x observado, dado o valor do parâmetro expresso em função de θ para o x determinado . Não compartilho a visão sobre a constante de proporcionalidade. Penso que isso só entra em jogo porque maximizar qualquer função monotônica da probabilidade fornece a mesma solução para θ . Portanto, você pode maximizar c L ( θx ) para c > 0 ou outras funções monotônicas, como log ( L ( θx ) )θθxθcL(θx)c>0 0log(L(θx)) o que é comumente feito.

Michael R. Chernick
fonte
4
Não só a maximização: o up-to-proporcionalidade também entra em jogo na relação noção probabilidade, e na fórmula de Bayes para as estatísticas Bayesian
Stéphane Laurent
Eu pensei que alguém poderia rebaixar minha resposta. Mas acho que é bastante razoável definir probabilidade dessa maneira como uma probabilidade definitiva, sem chamar nada de decorativo para isso. @ StéphaneLaurent ao seu comentário sobre anteriores, se a função for integrável, ela poderá ser normalizada para uma densidade. O posterior é proporcional à probabilidade vezes o anterior. Como o posterior deve ser normalizado dividindo-se por uma integral, é melhor especificar o anterior para ser a distribuição. É apenas em um sentido estendido que isso é aplicado a priores impróprios.
Michael R. Chernick
11
Não sei ao certo por que alguém rebaixou essa resposta. Parece que você está tentando responder mais às segundas e perguntas do OP do que à primeira. Talvez isso não estivesse totalmente claro para outros leitores. Felicidades. :)
cardeal
@ Michael Eu não vejo a necessidade de diminuir esta resposta também. Em relação aos priores não informativos (essa é outra discussão e), pretendo abrir uma nova dissucção sobre esse assunto. Não farei isso logo, porque não sou fácil com o inglês, e é mais difícil para mim escrever "filosofia" do que matemática.
Stéphane Laurent
11
@ Stephanie: Se você quiser, considere postar sua outra pergunta diretamente em francês. Temos vários falantes nativos de francês neste site que provavelmente ajudariam a traduzir todas as passagens que você não tiver certeza. Isso inclui um moderador e também um editor de uma das principais revistas de estatística em inglês. Estou ansioso para a pergunta.
cardeal
6

Aqui está uma tentativa de uma definição matemática rigorosa:

Seja um vetor aleatório que admita uma densidade f ( x | θ 0 ) em relação a alguma medida ν em R n , onde para θ Θ , { f ( x | θ ) : θ Θ } é uma família de densidades em R n com respeito ao ν . Então, para qualquer x R n , definimos a função de probabilidadeX:ΩRnf(x|θ0 0)νRnθΘ{f(x|θ):θΘ}RnνxRn é f ( x | θ ) ; para maior clareza, para cada x temos L x : q R . Pode-se pensar em x como um potencial específico x o b s e θ 0 como o valor "verdadeiro" de θ .eu(θ|x)f(x|θ)xeux:ΘRxxobsθ0 0θ

Algumas observações sobre esta definição:

  1. A definição é bastante robusto para lidar com tipos discretos, contínuos, e outros de famílias de distribuições para .X
  2. Estamos definindo a probabilidade no nível das funções de densidade, em vez de no nível das distribuições / medidas de probabilidade. A razão para isso é que as densidades não são únicas, e verifica-se que não é uma situação em que se possa passar para classes equivalentes de densidades e ainda estar seguro: escolhas diferentes de densidades levam a MLEs diferentes no caso contínuo. No entanto, na maioria dos casos, existe uma escolha natural de famílias de densidades que são desejáveis ​​teoricamente.
  3. Eu gosto dessa definição porque ela incorpora as variáveis ​​aleatórias com as quais estamos trabalhando e, por design, já que precisamos atribuir uma distribuição a elas, também construímos rigorosamente a noção do valor "verdadeiro, mas desconhecido" de , aqui indicado θ 0 . Para mim, como estudante, o desafio de ser rigoroso quanto à probabilidade sempre foi como conciliar os conceitos do mundo real de um "verdadeiro" θ e "observado" x o b s com a matemática; isso geralmente não era ajudado por instrutores que afirmavam que esses conceitos não eram formais, mas depois se revezavam e os usavam formalmente para provar as coisas! Então, lidamos com eles formalmente nesta definição.θθ0 0θxobs
  4. EDIT: É claro que somos livres para considerar os elementos aleatórios usuais , S ( θ | X ) e I ( θ | X ) e, nessa definição, sem problemas reais com rigor, desde que você seja cuidadoso (ou mesmo se você não estiver, se esse nível de rigor não for importante para você).eu(θ|X)S(θ|X)Eu(θ|X)
cara
fonte
4
@ Xi'an Let seja uniforme em ( 0 , θ ) . Considere duas densidades f 1 ( x ) = θ - 1 I [ 0 < x < θ ] versus f 2 ( x ) = θ - 1 I [ 0 x θ ] . Ambos f 1 eX1,...,Xn(0,θ)f1(x)=θ1I[0<x<θ]f2(x)=θ1I[0xθ]f1 são densidades válidas para U ( 0 , θ ) , mas sob f 2 o MLE existe e é igual a max X i, enquanto em f 1 temosj f 1 ( x j | max x i ) = 0, de modo que se você definir θ = max X i você acabar com uma probabilidade de 0 , e de fato o MLE não existe porque sup θ ¸f2U(0,θ)f2maxXEuf1 1jf1(xj|maxxi)=0θ^=maxXi0 não é atingido para nenhum θ . supθjf1(x|θ)θ
cara
11
@ cara: obrigado, eu não sabia sobre este contra-exemplo interessante.
Xian
11
@guy Você disse que não é atingido para nenhum θ . No entanto, esse supremo é atingido em algum momento, como mostro abaixo: L 1 ( θ ; x ) = n j = 1 f 1 ( x j | θ ) = θ - n n j = 1 I ( 0 < x j <supθjf1(xj|θ)θ onde M = max { x 1 , , x n } . Estou assumindo que x j > 0 para todos j = 1 , , n . É simples ver que 1. L 1 ( θ ; x ) = 0 , se 0 < θ
eu1 1(θ;x)=j=1 1nf1 1(xj|θ)=θ-nj=1 1nEu(0 0<xj<θ)=θ-nEu(0 0<M<θ),
M=max{x1 1,...,xn}xj>0 0j=1 1,...,neu1 1(θ;x)=0 0 ; 2. L 1 ( θ ; x ) = θ - n , se M < θ < . Continuando ...0 0<θMeu1 1(θ;x)=θ-nM<θ<
Alexandre Patriota
11
@ cara: continuando ... Ou seja, para todos θ ( 0 , ) . Não temos um valor máximo, mas o supremo existe e é dado por sup θ ( 0 , ) L 1 ( θ , x ) = M - n e o argumento é M = arg sup θ
eu1 1(θ;x)[0 0,M-n),
θ(0 0,)
supθ(0 0,)eu1 1(θ,x)=M-n
Talvez os assintóticos usuais não sejam aplicados aqui e outras portagens devam ser empregadas. Mas, o supremo deL1(θ;x)existe ou perdi alguns conceitos muito básicos.
M=argsupθ(0 0,)eu1 1(θ;x).
eu1 1(θ;x)
Alexandre Patriota
11
@AlexandrePatriota O supremo existe, obviamente, mas não é atingido pela função. Não sei ao certo o que a notação significa - não há argumento de L 1 ( θ ; x ) que produza o sup porque L 1 ( θ ; M ) = 0 . A MLE é definido como qualquer θ que atinge o sup (tipicamente) e não há q alcança o sup aqui. Obviamente, existem maneiras de contornar isso - os assintóticos que apelamos para exigir que hajaargsupeu1 1(θ;x)supeu1 1(θ;M)=0 0θ^supθ^supexiste uma probabilidade com essas propriedades, e existe. É apenas vez de L 1 . eu2eu1 1
cara,