Como exatamente os bayesianos definem (ou interpretam?) Probabilidade?

Parte de uma série de tentativas de compreensão entre Bayesiano e frequentista: 1 2 3 4 5 6 7

Acho que entendo a diferença de como os bayesianos e os freqüentadores abordam a escolha entre hipóteses , mas não tenho muita certeza se ou como isso deve me explicar como eles veem a probabilidade.

Pelo que entendi, de acordo com o Wiki , um frequentista "define" a probabilidade da seguinte maneira:

Dado o espaço de probabilidade , , , onde é o número de tentativas realizadas e é o número de vezes que A ocorreu nessas tentativas. $(\Omega, \mathscr{F}, \mathbb{P})$ $\forall A \in \mathscr{F}$ $\mathbb{P}(A) \approx \frac{n_A}{n_t}$ $n_t$ $n_A$

Além disso, $\mathbb{P}(A) = \lim_{n_t \to \infty} \frac{n_A}{n_t}$ .

Ok, então como os bayesianos definem probabilidade? O exposto acima parece ser uma abordagem para calcular a probabilidade de um evento, além de definir uma probabilidade.

Os bayesianos parecem assumir uma probabilidade anterior, conduzir alguns ensaios e depois atualizar sua probabilidade, mas isso não parece realmente explicar como eles definem o que é probabilidade.

O Wiki diz que 'probabilidade bayesiana é uma quantidade que atribuímos com o objetivo de representar um estado de conhecimento ou um estado de crença'.

O que exatamente isso significa? Estado é sinônimo de grau? Por exemplo, o estado de crença de Walter de que uma determinada moeda é justa é representado com o número 0,1, enquanto o estado de crença de Jesse de que a mesma moeda é justa é representado com o número 0,2. Com novas informações, o estado de crença de Walter pode se tornar 0,96, enquanto o estado de crença de Jesse pode se tornar 0,03. Então, inicialmente, Walter estava menos inclinado a acreditar que a moeda é justa, mas mais tarde Jesse estava mais inclinado a acreditar que a moeda é justa?

Estou esperando algo em termos de símbolos como o freqüentador acima.

A mesma página da Wiki diz 'A interpretação bayesiana da probabilidade pode ser vista como uma extensão da lógica proposicional que permite raciocinar com hipóteses, isto é, as proposições cuja verdade ou falsidade é incerta'., Parece que a probabilidade bayesiana e freqüentista é análoga a difusa e Lógica booleana, respectivamente.

probability bayesian frequentist definition philosophical BCLC
fonte

Tanto os freqüentadores quanto os bayesianos usam a mesma definição de probabilidade, ou seja, a baseada nos axiomas de probabilidade de Kolmogorov, ou seja, a probabilidade como uma medida finita. A diferença entre bayesianos e frequentistas não está, portanto, relacionada à definição de probabilidade, mas a como eles vinculam esse conceito aos dados.

Michael M

@MichaelM Eu deveria ter dito 'interpretar' em vez de 'definir'?

BCLC

@BCLC, parabenizei a sua pergunta, mas depois de não ter sido totalmente clara na resposta, achei a primeira entrada na coluna "Relacionados" muito útil.

Antoni Parellada

@AntoniParellada Thanks. Você quis dizer isso? . Já vi. Não sei o quê. Na abordagem bayesiana, interpretamos as distribuições de probabilidade como quantificando nossa incerteza sobre o mundo. 'significa, portanto, esta pergunta. Ou você quer dizer isso? Como isso ajuda a responder à minha pergunta?

BCLC

@MichaelM: Mas veja Os bayesianos aceitam axiomas de Kolmogorov? .

Scortchi - Restabelecer Monica

Respostas:

Acredito que a maioria dos 'frequentistas' e 'bayesianos' definiria rigorosamente a probabilidade da mesma maneira: através dos axiomas de Kolmogorov e da teoria das medidas, modulo algumas questões sobre aditividade finita versus contável , dependendo de com quem você está falando. Então, em termos de 'símbolos', acho que você provavelmente encontrará mais ou menos a mesma definição em todos os aspectos. Todos concordam em como as probabilidades se comportam .

Eu diria que a principal diferença está na interpretação de quais são as probabilidades . Minha interpretação preferida (militante bayesiano) é que as probabilidades são representações coerentes de informações sobre eventos .

'Coerente' aqui tem um significado técnico: significa que se eu represento minhas informações sobre o mundo em termos de probabilidades e as utilizo para dimensionar minhas apostas na ocorrência ou não ocorrência de qualquer evento, tenho certeza de que não posso ser um perdedor certo por agentes apostando contra mim.

Observe que isso não envolve a noção de 'frequência relativa de longo prazo'; de fato, posso representar coerentemente minhas informações sobre um evento pontual - como o sol explodindo amanhã - através da linguagem da probabilidade. Por outro lado, parece mais difícil (ou discutivelmente menos natural) falar sobre o evento "o sol explodirá amanhã" em termos de frequência relativa de longo prazo.

Para aprofundar essa questão, remeto-o ao primeiro capítulo dos excelentes (e livres) Princípios de Incerteza de Jay Kadane .

ATUALIZAÇÃO : Eu escrevi um post relativamente informal que ilustra coerência.

jtobin
fonte

'Se você é um membro do público em geral: o fato de você estar vendo esta página indica que o site que você acabou de visitar está com problemas ou está em manutenção de rotina.' -> Talvez mais tarde então. Obrigado

BCLC

@BCLC Isso é para o link da PoU? Está funcionando para mim.

jtobin

(+1) Exposição muito clara. @BCLC: Veja Savage (1954), The Foundations of Statistics, para uma abordagem axiomática. A essência é que, se você deseja representar o grau de crença e insistir na comparabilidade (para qualquer afirmação e pode-se dizer que acredita uma mais que a outra, ou ambas igualmente) e coerência (como explicado acima), acontece que você tem que usar uma probabilidade - isto é, um número real subjetivo aos axiomas de Kolmogorov (barra um, talvez).

A

$A$

B

$B$

Scortchi - Reinstate Monica

Tenho certeza de que há uma boa explicação sobre como as probabilidades bayesianas não permitem livros em holandês, mas não vejo a conexão imediatamente, por isso tenho problemas em dizer que esta é uma explicação clara de como os bayesianos vêem a probabilidade. Além disso, se as informações que um agente apostou contra você são assimétricas, você deve ser um perdedor seguro? Talvez essa pergunta implica que eu não estou entendendo ...

Cliff AB

Como já observado por outros, não existe uma definição bayesiana específica de probabilidade. Existe apenas uma maneira de definir probabilidade, ou seja, é um número real atribuído a algum evento por uma medida de probabilidade, que segue os axiomas da probabilidade . Se houvesse definições diferentes de probabilidade, não poderíamos usá-lo consistentemente, pois pessoas diferentes entenderiam coisas diferentes por trás dele.

Embora exista apenas uma maneira de defini- la, há várias maneiras de interpretar a probabilidade. Probabilidade é um conceito matemático , sem relação alguma com o mundo real (citando Finetti, "a probabilidade não existe"). Para aplicá-lo ao mundo real, precisamos traduzir ou interpretar a matemática em acontecimentos do mundo real. Existem várias maneiras diferentes de interpretar a probabilidade, até mesmo interpretações diferentes entre os bayesianos (verifique Interpretações de Probabilidade na Enciclopédia de Filosofia de Stanford para uma revisão). O que é mais comumente associado à estatística bayesiana é a visão subjetivista , também conhecida como probabilidade personalística .

Na visão subjetivista, probabilidade é um grau de crença ou grau de confirmação . Mede o quanto alguém considera algo crível. Pode ser analisado, ou observado, mais claramente em termos de comportamento das apostas (de Finetti, 1937; ver também Savage, 1976; Kemeny, 1955):

Suponhamos que um indivíduo seja obrigado a avaliar a taxa na qual ele estaria pronto para trocar a posse de uma soma arbitrária (positiva ou negativa), dependente da ocorrência de um determinado evento , pela posse da soma ; diremos por definição que esse número é a medida do grau de probabilidade atribuído pelo indivíduo considerado ao evento , ou, mais simplesmente, que é a probabilidade de (de acordo com o indivíduo considerado; essa especificação pode ser implícito se não houver ambiguidade). $p$ $S$ $E$ $pS$ $p$ $E$ $p$ $E$

Apostar é uma das situações em que é preciso quantificar quão "provável" ele acredita que algo seja e a medida dessa crença é claramente uma probabilidade. Traduzir essa crença para números, menos para medir a crença, ou seja, probabilidade.

Bruno de Finetti, uma das principais figuras entre os subjetivistas, observa que a visão subjetivista é coerente com axiomas de probabilidade e precisa segui-los:

Se reconhecermos apenas, primeiro que um evento incerto só pode aparecer para nós (a) igualmente provável, (b) mais provável ou (c) menos provável que outro; segundo, que um evento incerto sempre nos parece mais provável que um evento impossível e menos provável que um evento necessário; e, finalmente, terceiro: quando julgamos um evento mais provável que o evento , que é mais provável que um evento , então o evento só pode parecer mais provável que $E'$ $E$ $E''$ $E'$ $E''$ (propriedade transitiva), basta acrescentar três axiomas evidentemente triviais um quarto, de natureza puramente qualitativa, a fim de construir rigorosamente toda a teoria da probabilidade. O quarto axioma nos diz que as desigualdades são preservadas em somas lógicas: se é incompatível com e com , então será mais ou menos provável que , ou serão igualmente prováveis, de acordo com o local onde é mais ou menos provável que , ou eles são igualmente prováveis. De maneira mais geral, deduz-se disso que duas desigualdades, como $E$ $E_1$ $E_2$ $E_1 \lor E$ $E_2 \lor E$ $E_1$ $E_2$

$E_{1} is more probable then E_{2}, E_{1}^{'} is moreprobable then E_{2}^{'},$ $E_1 \text{ is more probable then } E_2,\\ E_1' \text{ is more probable then } E_2',$

pode ser adicionado para dar

$E_{1} \lor E_{1}^{'} is more probable then E_{2} \lor E_{2}^{'}$ $E_1 \lor E_1' \text{ is more probable then } E_2 \lor E_2'$

desde que os eventos adicionados sejam incompatíveis entre si ( com , com ). $E_1$ $E_1'$ $E_2$ $E_2'$

Pontos semelhantes são apresentados por vários autores diferentes, como Kemeny (1955) ou Savage (1972), que, como de Finetti, estabelecem conexões entre os axiomas e a visão subjetivista da probabilidade. Eles também mostram que essa medida de crença precisa ser consistente com os axiomas da probabilidade (por isso, se parece com uma probabilidade e grasna como uma probabilidade ...). Além disso, Cox (1946) mostra que a probabilidade pode ser pensada como uma extensão da lógica formal que vai além de verdadeiro e falso binário, permitindo incertezas.

Como você pode ver, isso não tem nada a ver com frequências. Obviamente, se você observar que os fumantes de nicotina morrem com mais freqüência do que os não fumantes, racionalmente você assumiria que essa morte é mais crível para um fumante, de modo que a interpretação da frequência não contradiz a visão subjetivista. O que torna essa interpretação atraente é que ela pode ser aplicada também a casos que não têm nada a ver com frequências (por exemplo, a probabilidade de Donald Trump vencer a eleição presidencial dos EUA em 2016, a probabilidade de haver outras formas de vida inteligentes em algum lugar do espaço além de nós, etc. ) Ao adotar a visão subjetivista, você pode considerar esses casos de maneira probabilística e criar modelos estatísticos de tais cenários (consulte o exemplo da previsão de eleições por FiveThirtyEight, isso é consistente com o pensamento sobre a probabilidade como medida do grau de crença com base nas evidências disponíveis). Isso torna essa interpretação muito ampla (alguns dizem, excessivamente ampla), para que possamos adaptar de maneira flexível o pensamento probabilístico a diferentes problemas. Sim, é subjetivo, mas de Finetti (1931) nota que, como a definição freqüentista é baseada em múltiplas suposições irrealistas, não a torna uma interpretação mais "racional".

de Finetti, B. (1937/1980). Pré-visualização: Ses Lois Logiques, Ses Sources Subjectives. [ Previsão. Suas leis lógicas, suas fontes subjetivas. ] Annales do Instituto Henri Poincaré, 7, 1-68.

Kemeny, J. (1955). Apostas justas e probabilidades indutivas. Journal of Symbolic Logic, 20, 263-273.

Savage, LJ (1972). Os fundamentos da estatística . Dover.

Cox, RT (1946). Probabilidade, frequência e expectativa razoável. American journal of physics, 14 (1), 1-13.

de Finetti, B. (1931/1989). 'Probabilismo: um ensaio crítico sobre a teoria da probabilidade e o valor da ciência'. Erkenntnis, 31, 169-223.

Tim
fonte

+1 Resposta muito boa (de alguma forma eu não a vi antes), e as referências são boas.

Ameba

Vou tentar ser incrivelmente claro com minha terminologia. Como você fez, vamos nos concentrar em uma moeda, , então . $X \sim Bernoulli(p)$ $Pr(X=1) = p$

Bayesianos e frequentistas veem como uma variável aleatória e compartilham as mesmas visões sobre a distribuição de probabilidade . No entanto, os bayesianos também usam distribuições de probabilidade para modelar sua incerteza sobre um parâmetro fixo, neste caso, . $X$ $Pr(X)$ $p$

Se agora deixarmos e definir , como você apontou $x_1, x_2, \dots \sim Bernoulli(p)$ $h_n = \sum_{i=1}^n x_i$

lim_{n \to \infty} \frac{h_{n}}{n} = p .

$\lim_{n\rightarrow \infty} \frac{h_n}{n}= p.$

Isso é relevante porque é o MLE para . No entanto, observe que, para qualquer número positivo (na verdade, eles nem precisam ser positivos): $h_n/n$ $p$ $a,b$

lim_{n \to \infty} \frac{h_{n} + a}{n + a + b} = p .

$\lim_{n\rightarrow \infty} \frac{h_n+a}{n+a+b}= p.$

Uma desvantagem do estimador é que, para pequenos isso pode ser uma loucura. O exemplo mais extremo disso é quando , nossa estimativa de será ou . E se definirmos e usar a segunda estimativa. Se obtivermos no primeiro lançamento, nossa estimativa atualizada será , maior que mas não tão extrema quanto . $h_n/n$ $n$ $n = 1$ $p$ $0$ $1$ $a=b=5$ $1$ $6/11$ $50\%$ $1$

Essa estimativa mais restrita pode ser facilmente obtida expressando nossa incerteza sobre na forma de uma distribuição anterior (e eventualmente posterior). Se você deseja procurar este exemplo em profundidade, isso é conhecido como beta-binomial . Envolve colocar um Beta anterior no parâmetro de uma Distribuição Binomial e atender à expectativa do posterior resultante. $p$

jlimahaverford
fonte

Então, os bayesianos interpretam a probabilidade como o limite de um MLE? Além disso, essa primeira declaração de limite é devida a e uma das leis de grandes números ?

E (X) = P (X = 1) = p

$E(X) = P(X=1) = p$

BCLC

Isso não responde à pergunta feita ... Essa resposta é mais sobre o uso de priores e inferência bayesiana, não sobre como a probabilidade é definida.

Tim

@ Tim Eu estava pensando que essa primeira declaração de limite é a resposta?

BCLC

@ Tim Talvez você devesse dizer 'como probabilidade é interpretado ' ...

BCLC

Tentei explicar e dar um exemplo do fato de que a probabilidade é definida da mesma maneira, mas usada de maneira diferente.

Jlimahaverford