A entrada da Wikipedia sobre probabilidade parece ambígua

26

Eu tenho uma pergunta simples sobre "probabilidade condicional" e "probabilidade". (Eu já fiz essa pergunta aqui, mas sem sucesso.)

Começa na página da Wikipedia sobre probabilidade . Eles dizem o seguinte:

A probabilidade de um conjunto de valores de parâmetros, , dados os resultados , é igual à probabilidade desses resultados observados, dados esses valores de parâmetros, ou sejaθx

L(θx)=P(xθ)

Ótimo! Então, em inglês, eu li o seguinte: "A probabilidade de parâmetros iguais a teta, dados dados X = x (lado esquerdo), é igual à probabilidade de os dados X serem iguais a x, considerando que os parâmetros são iguais a teta ". ( Negrito é meu para ênfase ).

No entanto, não menos de três linhas depois na mesma página, a entrada da Wikipedia continua:

Seja uma variável aleatória com uma distribuição de probabilidade discreta dependendo de um parâmetro . Então a funçãoXpθ

L(θx)=pθ(x)=Pθ(X=x),

considerada como uma função de , é chamada de função de verossimilhança (de \ theta , dado o resultado x da variável aleatória X ). Às vezes, a probabilidade do valor x de X para o valor do parâmetro \ theta é escrita como P (X = x \ mid \ theta) ; geralmente escrito como P (X = x; \ theta) para enfatizar que isso difere de \ mathcal {L} (\ theta \ mid x), que não é uma probabilidade condicional , porque \ theta é um parâmetro e não uma variável aleatória.θθxXxXθP(X=xθ)P(X=x;θ)L(θx)θ

( Negrito é meu para ênfase ). Portanto, na primeira citação, somos literalmente informados sobre uma probabilidade condicional de P(xθ) , mas imediatamente depois, somos informados de que essa não é realmente uma probabilidade condicional e deve, de fato, ser escrita como P(X=x;θ) ?

Então, qual é é? A probabilidade realmente conota uma probabilidade condicional da primeira citação? Ou conota uma probabilidade simples da segunda citação?

EDITAR:

Com base em todas as respostas úteis e perspicazes que recebi até agora, resumi minha pergunta - e meu entendimento até agora:

  • Em inglês , dizemos que: "A probabilidade é uma função dos parâmetros, DADOS os dados observados". Em matemática , escrevemos como: .L(Θ=θX=x)
  • A probabilidade não é uma probabilidade.
  • A probabilidade não é uma distribuição de probabilidade.
  • A probabilidade não é uma massa de probabilidade.
  • A probabilidade é, no entanto, em inglês : "Um produto de distribuições de probabilidade (caso contínuo) ou um produto de massas de probabilidade (caso discreto), em que , e parametrizado por . " Em matemática , escrevemos da seguinte forma: (caso contínuo, em que é um PDF) e como (caso discreto, em que é uma massa de probabilidade). O argumento aqui é que, em nenhum momento, aquiΘ = θ L ( Θ = θ X = x ) = f ( X = x ; Θ = θ ) f L ( Θ = θ X = x ) = P ( X = x ; Θ = θ ) PX=xΘ=θL(Θ=θX=x)=f(X=x;Θ=θ)f
    L(Θ=θX=x)=P(X=x;Θ=θ)P é uma probabilidade condicional que entra em jogo.
  • No teorema de Bayes, temos: . Coloquialmente, somos informados de que " é uma probabilidade", no entanto, isso não é verdade , pois pode ser um variável aleatória real. Portanto, o que podemos dizer corretamente, no entanto, é que esse termo é simplesmente "semelhante" a uma probabilidade. (?) [Nisto não tenho certeza.] P(X=X|Θ=θ)ΘP(X=X|Θ=θ)P(Θ=θX=x)=P(X=xΘ=θ) P(Θ=θ)P(X=x)P(X=xΘ=θ)ΘP(X=xΘ=θ)

EDIÇÃO II:

Com base na resposta @amoebas, desenhei seu último comentário. Eu acho que é bastante elucidativo, e acho que esclarece a principal disputa que eu estava tendo. (Comentários na imagem).

insira a descrição da imagem aqui

EDIT III:

Também estendi os comentários @amoebas ao caso bayesiano:

insira a descrição da imagem aqui

Creatron
fonte
Você já tem duas respostas legais, mas verifique também stats.stackexchange.com/q/112451/35989
Tim
@ Tim Excelente link obrigado! Infelizmente, ainda não estou claro quanto às perguntas específicas que tenho em relação à Probabilidade e à probabilidade condicional (?) Que parece evocar. Sobre isso, ainda não estou claro. : - /
Creatron 17/07
2
"Dado que" nem sempre significa probabilidade condicional. Às vezes, essa frase é apenas uma tentativa de indicar quais símbolos devem ser corrigidos em um cálculo ou conceitualmente.
whuber
2
Algumas pessoas de fato usam essa convenção tipográfica com ponto e vírgula. Existem muitas e muitas convenções: subscritos, sobrescritos etc. Você geralmente precisa descobrir o que alguém quer dizer com o contexto ou suas descrições de texto do que está fazendo.
whuber
4
Quando é uma variável aleatória (ou seja, um valor considerado resultante da variável aleatória ), nada na definição de probabilidade muda. Ainda é uma probabilidade. Logicamente, isso não é diferente de dizer que uma borboleta azul ainda é uma borboleta. Tecnicamente, levanta questões sobre a distribuição conjunta de e . Evidentemente, essa distribuição conjunta deve ser bem definida e gozar de certas "condições de regularidade" antes que você possa identificar a probabilidade com uma probabilidade condicional. Θ Θ xθΘΘx
whuber

Respostas:

18

Eu acho que isso é um cabelo em grande parte desnecessário.

A probabilidade condicional de dado é definida para duas variáveis ​​aleatórias e assumindo os valores e . Mas também podemos falar sobre a probabilidade de dada que não é uma variável aleatória, mas um parâmetro.x y X Y x y P ( x θ )P(xy)P(X=xY=y)xyXYxyP(xθ)θ θxθθ

Observe que em ambos os casos, o mesmo termo "dado" e a mesma notação podem ser usados. Não há necessidade de inventar notações diferentes. Além disso, o que é chamado de "parâmetro" e o que é chamado de "variável aleatória" podem depender da sua filosofia, mas a matemática não muda.P()

A primeira citação da Wikipedia afirma que por definição. Aqui assume-se que é um parâmetro. A segunda citação diz que não é uma probabilidade condicional. Isso significa que não é uma probabilidade condicional de dado ; e de fato não pode ser, porque é assumido como um parâmetro aqui.θ L ( θ x ) θ x θL(θx)=P(xθ)θL(θx)θxθ

No contexto do teorema de Bayes tanto e são variáveis aleatórias. Mas ainda podemos chamar "probabilidade" (de ), e agora também é uma probabilidade condicional de boa-fé (de ). Essa terminologia é padrão nas estatísticas bayesianas. Ninguém diz que é algo "semelhante" à probabilidade; as pessoas simplesmente chamam isso de probabilidade.abP(ba)

P(ab)=P(ba)P(a)P(b),
abP(ba)ab

Nota 1: No último parágrafo, é obviamente uma probabilidade condicional de . Como probabilidade é vista como uma função de ; mas não é uma distribuição de probabilidade (ou probabilidade condicional) de ! Sua integral sobre não é necessariamente igual a . (Considerando que sua integral sobre faz.)b L ( a b ) a a a 1 bP(ba)bL(ab)aaa1b

Nota 2: Às vezes, a probabilidade é definida até uma constante de proporcionalidade arbitrária, conforme enfatizado por @ MichaelLew (porque na maioria das vezes as pessoas estão interessadas em taxas de probabilidade ). Isso pode ser útil, mas nem sempre é feito e não é essencial.


Veja também Qual é a diferença entre "probabilidade" e "probabilidade"? e, em particular, a resposta do @ whuber lá.

Concordo plenamente com a resposta de @ Tim neste tópico também (+1).

ameba diz Restabelecer Monica
fonte
11
Assim, uma probabilidade, pode , na verdade, ser igual, a probabilidade condicional (conforme o último parágrafo), correto? É isso que estou tentando resolver. Por exemplo, em uma das primeiras respostas, temos: " Primeiro, a probabilidade não pode ser geralmente igual à probabilidade dos dados, dado o valor do parâmetro, pois a probabilidade é definida apenas até uma constante de proporcionalidade . Fisher foi explícito sobre isso quando ele primeira probabilidade formalizada (Fisher, 1922). "É isso que estou tentando resolver. A probabilidade - pode a probabilidade - ser sempre igual a uma probabilidade condicional?
Creatron 19/07/19
@ Crreatron eu adicionei duas notas à minha resposta. Eles esclarecem isso?
Ameba diz Reinstate Monica
11
Com relação à Nota 1: Dado que é uma distribuição de probabilidade condicional e como L ( a | b ) não pode ser uma distribuição de probabilidade, parece-me que a maneira mais 'correta' de escrever a equação para a probabilidade neste contexto é: L ( a | b ) P ( b | a ) , e não como, L ( a | b ) = P ( b | a )P(b|a) L(a|b) L(a|b)P(b|a)L(a|b)=P(b|a). (Eu sei que na otimização isso não faz diferença, mas estou tentando determinar a exatidão da probabilidade aqui). Meu entendimento está correto? Obrigado pela sua paciência.
Creatron 19/07/19
11
@ Cretron Eu acho que você está confundindo várias questões distintas aqui. Suponho que você esteja falando sobre uma configuração do teorema de Bayes (que é a que minha Nota 1 se refere), onde ambos e b são eventos aleatórios. Ok, então P ( b | a ) é uma distribuição de probabilidade condicional de b dado a . Mas L ( a | b ) deve ser visto como uma função de a , não de b ! E não é a distribuição de probabilidade de umabP(b|a)baL(a|b)abaporque não soma a um. Isso não tem nada a ver com a questão ou proporcionalidade (que é a minha nota 2). Eu acho que podemos escrever . L(a|b)=P(b|a)
Ameba diz Reinstate Monica
11
Ameba, obrigada !! Você tem sido fundamental para desvendar esses conceitos para mim, muito obrigado !! :) Acabei de "estender" o diagrama para o caso bayesiano e agradeceria o seu feedback para garantir que eu também o entendi corretamente. Eu também aceitei sua resposta. Mais uma vez, massivamente gracioso!
Creatron 21/07
10

Você já tem duas respostas legais, mas como ainda não está claro, deixe-me fornecer uma. Probabilidade é definida como

L(θ|X)=P(X|θ)=ifθ(xi)

por isso temos probabilidade de algum valor do parâmetro dado os dados X . É igual ao produto das funções massa de probabilidade (caso discreto) ou densidade (caso contínuo) f de X parametrizadas por θ . Probabilidade é uma função do parâmetro dado os dados. Observe que θ é um parâmetro que estamos otimizando, não uma variável aleatória; portanto, não há probabilidades atribuídas a ele. É por isso que a Wikipedia afirma que o uso da notação de probabilidade condicional pode ser ambíguo, pois não estamos condicionando nenhuma variável aleatória. Por outro lado, no cenário bayesiano θ éθ XfXθθθ uma variável aleatória e possui distribuição, para que possamos trabalhar com ela como qualquer outra variável aleatória e podemos usar o teorema de Bayes para calcular as probabilidades posteriores. A probabilidade bayesiana ainda é provável, pois nos informa sobre a probabilidade dos dados, considerando o parâmetro, a única diferença é que o parâmetro é considerado como variável aleatória.

Se você conhece a programação, pode pensar na função de probabilidade como uma função sobrecarregada na programação. Algumas linguagens de programação permitem que você tenha uma função que funciona de maneira diferente quando chamada usando diferentes tipos de parâmetros. Se você pensa em probabilidade como essa, por padrão, se usa como argumento algum valor de parâmetro e retorna a probabilidade de dados com esse parâmetro. Por outro lado, você pode usar essa função na configuração bayesiana, onde parâmetro é variável aleatória, isso leva basicamente à mesma saída, mas que pode ser entendida como probabilidade condicional, pois estamos condicionando a variável aleatória. Nos dois casos, a função funciona da mesma forma, apenas você a usa e a entende um pouco diferente.

// likelihood "as" overloaded function
Default Likelihood(Numeric theta, Data X) {
    return f(X, theta); // returns likelihood, not probability
}

Bayesian Likelihood(RandomVariable theta, Data X) {
    return f(X, theta); // since theta is r.v., the output can be
                        // understood as conditional probability
}

Além disso, você prefere não encontrar bayesianos que escrevem o teorema de Bayes como

P(θ|X)L(θ|X)P(θ)

... isso seria muito confuso . Primeiro, você teria nos dois lados da equação e não teria muito sentido. Segundo, temos probabilidade posterior de saber sobre a probabilidade de dados dados θ (isto é, o que você gostaria de saber na estrutura verossimilhança, mas você não sabe quando θ não é uma variável aleatória). Terceiro, como θ é uma variável aleatória, temos e a escrevemos como probabilidade condicional. O Lθ|XθθθL-notação é geralmente reservada para configuração verossimilhança. A probabilidade de nome é usada por convenção em ambas as abordagens para denotar algo semelhante: como a probabilidade de observar esses dados é alterada, devido ao seu modelo e ao parâmetro.

Tim
fonte
Obrigado Tim, isso foi muito útil em meu entendimento. Voltei a consolidar minha pergunta (veja em "Editar") com esse novo conhecimento. Acredito que tudo o que escrevi agora é verdade. O único ponto de destaque é o último ponto na lista de regras de Bayes. Se você pudesse dar uma olhada, eu apreciaria muito isso. Mais uma vez obrigado e tenha um voto positivo!
Creatron 18/07/19
11
@Creatron Adicionei uma frase comentando sua última bala à minha resposta, espero que esteja agora claro - se não, por favor, diga.
Tim
(1/2) Suas edições no operador sobrecarregado me ajudam muito. Nesse caso, parece-me que podemos dizer o seguinte: 1) Sob o 'matematicamente puro' (caso histórico no sentido do que Fisher provavelmente quis dizer), caso em que não é uma variável aleatória e, em vez disso, é um parâmetro de um PDF (ou uma função de um parâmetro?), a probabilidade é igual à probabilidade de P ( X = x ; θ ) . A função de verossimilhança NÃO é uma distribuição de probabilidade, com certeza, mas é igual à probabilidade de P ( X = x ; θ ) . Isso está correto? θP(X=x;θ)P(X=x;θ)
Creatron
(2/2) No segundo caso, no entanto, (2), quando o contexto é um cenário bayesiano, nesse caso, nossos parâmetros são um rv e, nesse caso, a probabilidade É de fato, uma distribuição de probabilidade condicional, de P (b | a), escrito no entanto, como L (a | b). Portanto, no primeiro caso 'padrão', a probabilidade definitivamente NÃO era uma distribuição de probabilidade (mas era igual a um valor de probabilidade); no entanto, no segundo caso, a probabilidade é de fato uma distribuição de probabilidade e essa distribuição de probabilidade é condicional. probabilidade, escrita como P (b | a). Isso está correto?
Creatron 19/07/2016
2
Obrigado Tim, mesmo tendo aceitado a resposta de @amoeba, sua postagem realmente me ajudou a entender esse conceito variado e profundo, especialmente sua analogia com funções sobrecarregadas. Mais uma vez obrigado!
Creatron 21/07
7

Existem vários aspectos das descrições comuns de probabilidade que são imprecisos ou omitem detalhes de uma maneira que gera confusão. A entrada da Wikipedia é um bom exemplo.

Primeiro, a probabilidade não pode ser geralmente igual à probabilidade dos dados, dado o valor do parâmetro, pois a probabilidade é definida apenas até uma constante de proporcionalidade. Fisher foi explícito sobre isso quando formalizou a probabilidade pela primeira vez (Fisher, 1922). A razão para isso parece ser o fato de que não há restrição à integral (ou soma) de uma função de probabilidade e a probabilidade de observar dados dentro de um modelo estatístico, dado que qualquer valor do (s) parâmetro (s) é fortemente afetado por a precisão dos valores dos dados e a granularidade da especificação dos valores dos parâmetros.x

Segundo, é mais útil pensar na função de probabilidade do que nas probabilidades individuais. A função de verossimilhança é uma função dos valores dos parâmetros do modelo, como é óbvio em um gráfico de uma função de verossimilhança. Esse gráfico também facilita a visualização de que as probabilidades permitem uma classificação dos vários valores do (s) parâmetro (s) de acordo com o quão bem o modelo prevê os dados quando definido com esses valores de parâmetro. A exploração das funções de probabilidade torna os papéis dos dados e os valores dos parâmetros muito mais claros, na minha opinião, do que a cogitação das várias fórmulas fornecidas na pergunta original.

O uso de uma razão de pares de probabilidades dentro de uma função de probabilidade, pois o grau relativo de suporte oferecido pelos dados observados para os valores dos parâmetros (dentro do modelo) contorna o problema de constantes de proporcionalidade desconhecidas porque essas constantes se cancelam na proporção. É importante observar que as constantes não seriam necessariamente canceladas em uma proporção de probabilidades provenientes de funções de probabilidade separadas (ou seja, de diferentes modelos estatísticos).

Finalmente, é útil ser explícito sobre o papel do modelo estatístico, porque as probabilidades são determinadas pelo modelo estatístico e pelos dados. Se você escolher um modelo diferente, terá uma função de probabilidade diferente e poderá obter uma constante de proporcionalidade desconhecida diferente.

Assim, para responder à pergunta original, as probabilidades não são uma probabilidade de qualquer espécie. Eles não obedecem aos axiomas de probabilidade de Kolmogorov e desempenham um papel diferente no suporte estatístico da inferência dos papéis desempenhados pelos vários tipos de probabilidade.

  1. Fisher (1922) Sobre os fundamentos matemáticos das estatísticas http://rsta.royalsocietypublishing.org/content/222/594-604/309
Michael Lew
fonte
11
A primeira linha do seu post resume minha frustração com esse tópico. De qualquer forma, algumas perguntas baseadas em seu post, senhor: 1) A fórmula bayesiana é geralmente escrita como , onde (nos é dito) queP(b|a)é uma 'probabilidade' e queP(a)é um 'anterior'. Se a probabilidade não é uma probabilidade, então esta afirmação é falsa? 2) Minha motivação para a pergunta está no contexto de derivar um estimador de probabilidade máxima, que inevitavelmente vincula uma probabilidade a uma probabilidade (aparentemente) concreta (condicional). Dados esses dois exemplos, como reconciliá-los? Obrigado. P(a|b)=P(b|a)P(a)P(b)P(b|a)P(a)
Creatron 16/07/19
@ Crreatron 1. Não, a declaração não está necessariamente errada. A função de probabilidade é como a evidência entra no cálculo e combiná-lo com uma distribuição de probabilidade produz uma distribuição de probabilidade. Nesse contexto, a constante de proporcionalidade desconhecida não é um problema, porque após o produto da função de probabilidade e a distribuição de probabilidade prévia serem arbitrariamente escalonadas, de modo que ela tenha a integral (ou soma) correta da unidade.
Michael Lew
2. No contexto de encontrar uma estimativa de probabilidade máxima, não faz diferença se você usa uma probabilidade ou probabilidade condicional, pois elas serão proporcionais ao longo de todo o intervalo de valores de parâmetros.
Michael Lew
11
Podemos então dizer que enquanto está tecnicamente errado, L ( θ | x ) P ( x | θ ) é técnica e formalmente correta? Isso é tudo o que existe? L(θ|x)=P(x|θ)L(θ|x)P(x|θ)
Creatron
Obrigado Micheal Lew, seu post realmente ajudou no meu entendimento deste problema, muito apreciado.
Creatron 21/07
7

Wikipedia deveria ter dito que não é uma probabilidade condicional de θ estar em algum conjunto específico, nem a densidade de probabilidade de θ . De fato, se há infinitamente muitos valores de θ no espaço de parâmetros, você pode ter Σ θ L ( θ ) = , por exemplo, tendo L ( θ ) = 1 , independentemente do valor de θ , e se há algum padrão meça d θ no espaço do parâmetro ΘL(θ)θθθ

θL(θ)=,
L(θ)=1θdθΘ
ΘL(θ)dθ=.
L
θP(xθ) and NOT xP(xθ).
Michael Hardy
fonte
2
+1 e obrigado pela edição da minha resposta; Eu esqueci que \midexiste.
Ameba diz Reinstate Monica
@amoeba: Fico feliz em ajudar.
Michael Hardy
3

"Eu li isso como:" A probabilidade de parâmetros equivalentes a teta, dados os dados X = x (lado esquerdo), é igual à probabilidade de os dados X serem iguais a x, dado que os parâmetros são iguais a theta ". (Negrito é meu para ênfase)."

É a probabilidade do conjunto de observações, dado que o parâmetro é theta. Talvez isso seja confuso porque eles escrevemP(x|θ) mas então L(θ|x).

The explanation (somewhat objectively) implies that θ is not a random variable. It could, for example, be a random variable with some prior distribution in a Bayesian setting. The point however, is that we suppose θ=θ, a concrete value and then make statements about the likelihood of our observations. This is because there is only one true value of θ in whatever system we're interested in.

Alex R.
fonte
Ok, so I then conclude based on this that i) The first image on the wikipedia is wrong, because (to my knowledge at least), P(a|b) is always read as a conditional probability, and what they SEEM to want to say, is that it's not - or ever - "probability of the data GIVEN this theta", it's rather, "probability of the data, PARAMETERIZED by this theta". Is this correct? Thanks. (To summarize, it seems that L(θ|x)=P(X=x;θ).
Creatron
This however is problematic, because in a Bayesian formulation, P(a|b)=P(b|a) P(a)P(b), the P(b|a) we are told is in fact the likelihood, (and is in fact a conditional probability). However this contradicts what we just said, and also contradicts what the wiki says in image 2.
Creatron
L(θ|x):=P(x|θ). The θ is to the left of x in L to emphasize that we think of L as a function of θ, the parameter we wish to optimize. So there's no contradiction.
Alex R.
Is the right-hand-side of L(θ|x) := P(x|θ) a conditional probability?
Creatron
This makes more sense to me now. Thanks for your initial help, @Alex.
Creatron