Existe alguma base * matemática * para o debate bayesiano x freqüentista?

67

Diz na Wikipedia que:

a matemática [da probabilidade] é amplamente independente de qualquer interpretação da probabilidade.

Pergunta: Então, se queremos ser matematicamente corretos, não devemos proibir qualquer interpretação de probabilidade? Ou seja, o bayesiano e o freqüentismo são matematicamente incorretos?

Não gosto de filosofia, mas gosto de matemática e quero trabalhar exclusivamente dentro da estrutura dos axiomas de Kolmogorov. Se esse é o meu objetivo, deve seguir o que diz na Wikipedia que devo rejeitar tanto o bayesianismo quanto o frequentismo? Se os conceitos são puramente filosóficos e nada matemáticos, por que eles aparecem nas estatísticas em primeiro lugar?

Antecedentes / Contexto:
Esta postagem no blog não diz exatamente a mesma coisa, mas argumenta que tentar classificar técnicas como "bayesiana" ou "frequentista" é contraproducente de uma perspectiva pragmática.

Se a citação da Wikipedia for verdadeira, parece que, de uma perspectiva filosófica, tentar classificar métodos estatísticos também é contraproducente - se um método é matematicamente correto, é válido usar o método quando as suposições da matemática subjacente hold, caso contrário, se não for matematicamente correto ou se as suposições não forem válidas, será inválido usá-lo.

Por outro lado, muitas pessoas parecem identificar "inferência bayesiana" com a teoria da probabilidade (isto é, os axiomas de Kolmogorov), embora não tenha muita certeza do porquê. Alguns exemplos são o tratado de Jaynes sobre inferência bayesiana chamado "Probabilidade", bem como o livro de James Stone "Regra de Bayes". Portanto, se eu considerasse essas alegações pelo valor de face, isso significa que eu preferiria o bayesianismo.

No entanto, o livro de Casella e Berger parece freqüentador porque discute os estimadores de probabilidade máxima, mas ignora os estimadores a posteriori máximos, mas também parece que tudo nele é matematicamente correto.

Então, não se seguiria que a única versão matematicamente correta das estatísticas é aquela que se recusa a ser qualquer coisa, menos inteiramente agnóstica em relação ao bayesianismo e ao freqüentismo? Se os métodos com ambas as classificações são matematicamente corretos, não é uma prática imprópria preferir alguns a outros, porque isso priorizaria uma filosofia vaga e mal definida, em vez de matemática precisa e bem definida?

Resumo: Em resumo, não entendo qual é a base matemática para o debate bayesiano versus freqüentista, e se não há base matemática para o debate (que é o que a Wikipedia afirma), não entendo por que é tolerado em tudo no discurso acadêmico.

Chill2Macht
fonte
5
Talvez também seja interessante: os bayesianos aceitam axiomas de Kolmogorov? .
Scortchi - Restabelece Monica
11
@ PeterMortensen Eu já vi essa pergunta antes de fazer essa pergunta; no entanto, a resposta a essa pergunta não abordou minha principal fonte de confusão, a saber, que diferença matemática , se houver alguma entre as duas; lembre-se de que não estou interessado em diferenças filosóficas, pois elas não deveriam ter nenhuma influência no espaço de possíveis modelos.
Chill2Macht
11
Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
whuber
4
O debate bayesiano é menos sobre probabilidade e muito mais sobre interpretação estatística e a validade de sua aplicação.
precisa saber é o seguinte
2
@Mehrdad Esta pergunta não é sobre as diferentes abordagens que dão respostas diferentes, mas sobre a possibilidade de formalizar, através de axiomas matemáticos, a diferença entre bayesianismo e frequentismo. As respostas para a pergunta vinculada não explicam as diferenças axiomáticas entre as duas abordagens.
precisa saber é o seguinte

Respostas:

14

Espaços probabilísticos e axiomas de Kolmogorov

Um espaço de probabilidade é, por definição, um tripple que é um conjunto de resultados, é uma -algebra em os subconjuntos de e são uma medida de probabilidade que cumpre os axiomas de Kolmogorov, ou seja, é uma função de a modo que e para separados em sustenta que ( Ω , F , P ) Ω F σ Ω P P F [ 0 , 1 ] P ( Ω ) = 1 E 1 , E 2 , ... M P ( j = 1 E j ) = Σ j = 1 P ( E j )P(Ω,F,P)ΩFσΩPPF[0,1]P(Ω)=1E1,E2,FP(j=1Ej)=j=1P(Ej).

Dentro desse espaço de probabilidade, é possível, para dois eventos em definir a probabilidade condicional comoF P ( E 1 | E 2 ) d e f = P ( E 1E 2 )E1,E2FP(E1|E2)=defP(E1E2)P(E2)

Observe que:

  1. essa '' probabilidade condicional '' é definida apenas quando é definido em , portanto, precisamos de um espaço de probabilidade para poder definir probabilidades condicionais.FPF
  2. Um espaço de probabilidade é definido em termos muito gerais ( um conjunto , um -algebra e uma medida de probabilidade ), o único requisito é que certas propriedades sejam cumpridas, exceto por isso esses três elementos podem ser '' qualquer coisa ''.σ F PΩ σFP

Mais detalhes podem ser encontrados neste link

A regra de Bayes é válida em qualquer espaço de probabilidade (válido)

A partir da definição de probabilidade condicional, também sustenta que . E a partir das duas últimas equações, encontramos a regra de Bayes. Portanto, a regra de Bayes se mantém (por definição de probabilidade condicional) em qualquer espaço de probabilidade (para mostrá-lo, derivar e de cada equação e igualar eles (são iguais porque a interseção é comutativa)). P(E2|E1)=P(E2E1)P(E1)P(E1E2)P(E2E1)

Como a regra de Bayes é a base da inferência bayesiana, pode-se fazer a análise bayesiana em qualquer espaço de probabilidade válido (isto é, cumprindo todas as condições, axiomas de Kolmogorov).

A definição freqüente de probabilidade é um '' caso especial ''

O acima exposto vale '' em geral '', ou seja, não temos em mente , , , desde que seja uma álgebra em subconjuntos de e cumpre os axiomas de Kolmogorov.ΩFPFσΩP

Agora mostraremos que uma definição "freqüentista" de cumpre os axiomas de Kolomogorov. Se for esse o caso, as probabilidades "freqüentistas" são apenas um caso especial da probabilidade geral e abstrata de Kolmogorov. P

Vamos dar um exemplo e rolar os dados. Em seguida, o conjunto de todos os resultados possíveis é . Também precisamos de um álgebra neste conjunto e tomamos o conjunto de todos os subconjuntos de , ou seja, .ΩΩ={1,2,3,4,5,6}σΩFΩF=2Ω

Ainda temos que definir a medida de probabilidade maneira freqüente. Portanto, definimos como onde é o número de 's obtidos em rolos dos dados. Semelhante para , ... .PP({1})P({1})=deflimn+n1nn11nP({2})P({6})

Dessa maneira, é definido para todos os singletons em . Para qualquer outro conjunto em , por exemplo, , definimos maneira freqüente, por exemplo, , mas pela linearidade do 'lim', isso é igual a , o que implica que os axiomas de Kolmogorov se mantêm.PFF{1,2}P({1,2})P({1,2})=deflimn+n1+n2nP({1})+P({2})

Portanto, a definição freqüente de probabilidade é apenas um caso especial da definição geral e abstrata de Kolomogorov de uma medida de probabilidade.

Observe que existem outras maneiras de definir uma medida de probabilidade que atenda aos axiomas de Kolmogorov; portanto, a definição freqüentista não é a única possível.

Conclusão

A probabilidade no sistema axiomático de Kolmogorov é "abstrata", não tem significado real, apenas precisa atender a condições chamadas "axiomas". Usando apenas esses axiomas, Kolmogorov conseguiu derivar um conjunto muito rico de teoremas.

A definição freqüentista de probabilidade preenche os axiomas e, portanto, substitui o abstrato "sem sentido" por uma probabilidade definida de maneira freqüentista; todos esses teoremas são válidos porque a "probabilidade freqüentista" é apenas uma especialidade caso da probabilidade abstrata de Kolmogorov (isto é, cumpre os axiomas).P

Uma das propriedades que pode ser derivada na estrutura geral de Kolmogorov é a regra de Bayes. Como sustenta a estrutura geral e abstrata, também sustentará (cfr supra) no caso específico que as probabilidades são definidas de maneira freqüentista (porque a definição freqüentista cumpre os axiomas e esses axiomas eram a única coisa necessária para derivar todos os teoremas). Portanto, pode-se fazer uma análise bayesiana com uma definição freqüente de probabilidade.

Definir maneira freqüentista não é a única possibilidade; existem outras maneiras de defini-lo de forma que ele atenda aos axiomas abstratos de Kolmogorov. A regra de Bayes também se aplica nesses "casos específicos". Portanto, também se pode fazer uma análise bayesiana com uma definição de probabilidade não freqüentista.P

EDIT 23/8/2016

@mpiktas reação ao seu comentário:

Como eu disse, os conjuntos e a medida de probabilidade não têm significado particular no sistema axiomático, eles são abstratos. Ω,FP

Para aplicar essa teoria, é necessário fornecer definições adicionais (portanto, o que você diz no seu comentário "não há necessidade de confundi-la ainda mais com algumas definições bizarras '' está errado, você precisa de definições adicionais ).

Vamos aplicá-lo ao caso de jogar uma moeda justa. O conjunto na teoria de Kolmogorov não tem significado particular, apenas tem que ser "um conjunto". Portanto, devemos especificar o que esse conjunto é no caso da moeda justa, ou seja, devemos definir o conjunto . Se representarmos a cabeça como H e a cauda como T, o conjunto será por definição .ΩΩΩ Ω=def{H,T}

Também temos que definir os eventos, isto é, o -algebra . Definimos como . É fácil verificar se é um -algebra.σFF=def{,{H},{T},{H,T}}Fσ

Em seguida, devemos definir para cada evento em sua medida. Então, precisamos definir um mapa de em . Vou defini-lo da maneira freqüentista, para uma moeda justa, se eu a jogar muitas vezes, então a fração de cabeças será 0,5, então eu defino . Da mesma forma, defino , e . Note que é um mapa de em e que cumpre os axiomas de Kolmogorov.EFF[0,1]P({H})=def0.5P({T})=def0.5P({H,T})=def1P()=def0PF[0,1]

Para uma referência com a definição freqüente de probabilidade, consulte este link (no final da seção 'definição') e este link .

Comunidade
fonte
10
Talvez deva-se notar em algum lugar que há um debate freqüentista / bayesiano sobre a interpretação da probabilidade e há um debate freqüentista / bayesiano sobre inferência estatística. Estes são dois debates diferentes (embora relacionados). Essa resposta fala exclusivamente sobre a primeira, o que é bom (e acho que o que William estava interessado aqui, ele optou por aceitar essa resposta), mas a maioria das outras respostas fala principalmente sobre a segunda. Esta é apenas uma nota para futuros leitores, mas também uma nota para William.
Ameba diz Reinstate Monica
2
Eu estou votando negativamente, porque não há referência à definição de "probabilidade freqüentista" e, sem ela, o post não faz sentido. Por exemplo, a definição dada de nem sequer é matematicamente correta, porque a definição depende de um limite de rolos de dados. Objetos matemáticos são abstratos e não dependem de objetos físicos. Além disso, para provar que o limite existe, você precisa construir um espaço de probabilidade, onde a variável aleatória é definida, e depois provar que ela converge, para a qual você precisa da teoria da medida e da ...P({1})nn1/n
mpiktas
2
definição da probabilidade. Portanto, mesmo se permitirmos que a definição seja circular, ou seja, para verificar se o objeto satisfaz a definição, você precisa defini-lo. Eu gostaria muito de obter uma referência a um livro que usa essa definição e tenta usá-la para derivar todos os resultados usuais nas estatísticas.
Mkttas 23/08/16
5
Este artigo longo e detalhado na Enciclopédia Stanford de Filosofia sobre Interpretações de Probabilidade contém uma seção longa e detalhada sobre frequentismo e pode ser uma referência melhor do que o seu link para a Wikipedia (a Enciclopédia Stanford é bastante autoritária, ao contrário da Wikipedia). Torna claro que se a definição frequentista faz sentido e mesmo o que exatamente constitui a definição frequentista é uma questão de 150 anos de debate em andamento que você e @mpiktas parecem estar representando aqui na seção de comentários.
Ameba diz Reinstate Monica
2
@amoeba: Gosto particularmente do lembrete no seu link de que poderíamos interpretar "probabilidade" de todas as formas, sem relação com o conceito normalmente entendido - por exemplo, comprimento normalizado - e ainda assim permanecer consistente com os axiomas de Kolmogorov.
Scortchi - Restabelece Monica
66

Estatísticas não é matemática

Primeiro, eu roubo as palavras de @ whuber de um comentário no Stats não é matemática? (aplicada em um contexto diferente, estou roubando palavras, não citando):

Se você substituísse "estatística" por "química", "economia", "engenharia" ou qualquer outro campo que emprega matemática (como a economia doméstica), parece que nenhum dos seus argumentos mudaria.

Todos esses campos podem existir e ter perguntas que não são resolvidas apenas verificando quais teoremas estão corretos. Embora algumas respostas no Stats não sejam matemática? discordo, acho claro que a estatística não é matemática (pura). Se você quer fazer a teoria da probabilidade, um ramo da matemática (pura), você pode realmente ignorar todos os debates do tipo sobre o qual você pergunta. Se você deseja aplicar a teoria da probabilidade na modelagem de algumas questões do mundo real, precisa de algo mais para guiá-lo do que apenas os axiomas e teoremas da estrutura matemática. O restante da resposta está divagando sobre esse ponto.

A afirmação "se queremos ser matematicamente corretos, não devemos proibir qualquer interpretação da probabilidade" também parece injustificada. Colocar uma interpretação no topo de uma estrutura matemática não a torna incorreta (desde que a interpretação não seja reivindicada como um teorema na estrutura matemática).

O debate não é (principalmente) sobre axiomas

Embora existam axiomatizações alternativas *, o debate (?) Não trata de disputar axiomas de Kolmogorov. Ignorando algumas sutilezas com eventos de condicionamento de medida zero, levando a probabilidade condicional regular etc., sobre a qual eu não sei o suficiente, os axiomas de Kolmogorov e a probabilidade condicional implicam a regra de Bayes, que ninguém contesta. No entanto, se não for sequer uma variável aleatória em seu modelo (modelo no sentido da configuração matemática que consiste em um espaço de probabilidade ou uma família deles, variáveis ​​aleatórias etc.), é claro que não é possível calcular a condição condicional distribuição . Ninguém também contesta que as propriedades de frequência, se calculadas corretamente, são conseqüências do modelo. Por exemplo, as distribuições condicionaisXP(XY)p(yθ)em um modelo bayesiano, defina uma família indexada de distribuições de probabilidade simplesmente deixando e, se alguns resultados forem válidos para todos no último, eles também são válidos para todos os no primeiro.p(y;θ)p(yθ)=p(y;θ)θθ

O debate é sobre como aplicar a matemática

Os debates (tanto quanto existem) são, em vez disso, sobre como decidir que tipo de modelo de probabilidade configurar para um problema (da vida real, não-matemático) e quais implicações do modelo são relevantes para o desenho (real conclusões). Mas essas perguntas existiriam mesmo que todos os estatísticos concordassem. Para citar a postagem do blog que você vinculou a [1], queremos responder perguntas como

Como devo projetar uma roleta para que meu cassino ganhe $? Este fertilizante aumenta o rendimento das culturas? A estreptomicina cura a tuberculose pulmonar? Fumar causa câncer? Que filme esse usuário gostaria de assistir? Para qual jogador de beisebol o Red Sox deve contratar? Esse paciente deve receber quimioterapia?

Os axiomas da teoria das probabilidades nem sequer contêm uma definição de beisebol; portanto, é óbvio que "o Red Sox deveria contratar um jogador de beisebol X" não é um teorema da teoria das probabilidades.

Nota sobre justificativas matemáticas da abordagem bayesiana

Existem "justificativas matemáticas" para considerar todas as incógnitas como probabilísticas, como o teorema de Cox a que Jaynes se refere (embora eu ouça que ele tem problemas matemáticos, que podem ou não ter sido consertados, não sei, veja [2] e referências nele) ou a abordagem (subjetiva bayesiana) de Savage (ouvi falar disso em [3], mas nunca li o livro) que prova que, sob certas suposições, um tomador de decisão racional terá uma distribuição de probabilidade entre estados do mundo e selecione sua ação com base na maximização do valor esperado de uma função de utilidade. No entanto, se o gerente da Red Sox deve ou não aceitar as suposições, ou se devemos aceitar a teoria de que fumar causa câncer, não pode ser deduzido de nenhuma estrutura matemática,

Notas de rodapé

* Não estudei, mas ouvi que Finetti tem uma abordagem em que as probabilidades condicionais são primitivas, e não obtidas da medida (incondicional) por condicionamento. [4] menciona um debate entre (Bayesians) José Bernardo, Dennis Lindley e Bruno de Finetti em um aconchegante restaurante francês sobre se -additivity é necessário.σ

** Conforme mencionado na postagem do blog ao qual você vincula [1], pode não haver um debate claro com cada estatístico pertencente a uma equipe e menosprezando a outra equipe. Ouvi dizer que somos todos pragmáticos hoje em dia e o debate inútil acabou. No entanto, na minha experiência, essas diferenças existem, por exemplo, se a primeira abordagem de alguém é modelar todas as incógnitas como variáveis ​​aleatórias ou não e quão interessado alguém está em garantias de frequência.

Referências

[1] Simply Statistics, um blog estatístico de Rafa Irizarry, Roger Peng e Jeff Leek, "Declaro o debate bayesiano x freqüentista para os cientistas de dados", 13 de outubro de 2014, http://simplystatistics.org/2014/10 / 13 / como estatístico aplicado-eu-encontro-os-freqüentadores-contra-bayesianos-debate-completamente-inconseqüente /

[2] Dupré, MJ e Tipler, FJ (2009). Novos axiomas para probabilidade bayesiana rigorosa. Bayesian Analysis, 4 (3), 599-606. http://projecteuclid.org/download/pdf_1/euclid.ba/1340369856

[3] Savage, LJ (1972). Os fundamentos da estatística. Courier Corporation.

[4] Bernardo, JM The Valencia Story - Alguns detalhes da origem e desenvolvimento dos Encontros Internacionais de Valência sobre Estatísticas Bayesianas. http://www.uv.es/bernardo/ValenciaStory.pdf

Juho Kokkala
fonte
13
+1, em particular para "Os axiomas da teoria das probabilidades nem sequer contêm uma definição de beisebol".
Ameba diz Reinstate Monica
5
@ William: Não se acredita que o parâmetro seja uma variável aleatória constante - isso não é um fato a ser deduzido ou observado. A questão é se deve ou não representar incerteza epistêmica sobre o verdadeiro valor do parâmetro usando uma distribuição de probabilidade. (A análise freqüentista representa apenas o processo aleatório de geração de dados usando uma distribuição de probabilidade.)
Scortchi - Reinstate Monica
4
@William, o clássico Monty Hall, não tem nada que possa ser interpretado como um parâmetro ou como dados, é um problema de probabilidade. A abordagem bayesiana / freqüentista só entraria em jogo se você quisesse estimar, digamos, o parâmetro da variante parametrizada descrita aqui en.wikipedia.org/wiki/Monty_Hall_problem#Variants assistindo a vários episódios do gamehow. Eu, como bayesiano, provavelmente colocaria, por exemplo, um beta anterior ao e começaria a atualizar. Se isso funcionaria bem em uma simulação por computador poderia depender fortemente de como a simulação por computador seleciona . qqq
Juho Kokkala
8
Preemptivamente, notei que não estou interessado em continuar com nenhum debate sobre isso na seção de comentários, já que ele (nem esse site) é um lugar para debates.
Juho Kokkala
2
Concordo plenamente que "estatísticas não são matemática". Wigner escreveu um ensaio chamado "A eficácia irracional da matemática na física", que argumentava que, uma vez que não havia conexão inerente entre o mundo abstrato da matemática e o mundo concreto da física. Foi surpreendente (e maravilhoso) que a matemática funcionou tão bem na descrição da física. Eu sinto o mesmo para as estatísticas. Estou ansioso para alguém escrever "A eficácia irracional da matemática nas estatísticas". Pessoalmente, acho incrível que a matemática abstrata funcione tão bem na descrição de fenômenos estatísticos.
precisa saber é o seguinte
32

A base matemática para o debate bayesiano x freqüentista é muito simples. Nas estatísticas bayesianas, o parâmetro desconhecido é tratado como uma variável aleatória; nas estatísticas freqüentistas, é tratado como um elemento fixo. Como uma variável aleatória é um objeto matemático muito mais complicado do que um simples elemento do conjunto, a diferença matemática é bastante evidente.

No entanto, verifica-se que os resultados reais em termos de modelos podem ser surpreendentemente semelhantes. Tome a regressão linear, por exemplo. A regressão linear bayesiana com antecedentes não informativos leva a uma distribuição de uma estimativa de parâmetro de regressão, cuja média é igual à estimativa do parâmetro de regressão linear freqüentista, que é uma solução para um problema de mínimos quadrados, que nem sequer é um problema da teoria da probabilidade . No entanto, a matemática usada para chegar a uma solução semelhante é bastante diferente, pela razão declarada acima.

Naturalmente, devido à diferença de tratamento das propriedades matemáticas dos parâmetros desconhecidos (variável aleatória versus elemento do conjunto), tanto as estatísticas bayesianas quanto as freqüentadoras atingem casos em que pode parecer que é mais vantajoso usar uma abordagem competitiva. Intervalos de confiança é um excelente exemplo. Não ter que confiar no MCMC para obter uma estimativa simples é outra. No entanto, essas são geralmente mais questões de gosto e não de matemática.

mpiktas
fonte
5
Embora a constante seja um caso especial de uma variável aleatória, eu hesitaria em concluir que o bayesianismo é mais geral. Você não obteria resultados freqüentes dos bayesianos simplesmente recolhendo a variável aleatória para uma constante. A diferença é mais profunda. Quando você assume que seu parâmetro é a constante desconhecida, o ponto focal do estudo se torna a estimativa, que é uma variável aleatória (já que é uma função mensurável da amostra) e a proximidade do valor real do parâmetro, ou de que maneira obter a estimativa para que ela fique próxima da estimativa real.
Mpgtas 19/08/16
6
Como a estimativa é uma variável aleatória, você não pode estudá-la ignorando a teoria da medida, então acho sua afirmação de que muitos estatísticos mostram uma quantidade surpreendente de ignorância e desdém pela teoria da medida bastante surpreendente. Você leu Estatística Assintótica de A. van der Vaart? Eu consideraria este livro uma visão geral muito boa das estatísticas freqüentes e das características da teoria das medidas com bastante destaque.
precisa saber é o seguinte
3
As estatísticas bayesianas, por outro lado, derivam a distribuição do parâmetro quase imediatamente e, em seguida, a questão é como calculá-lo (muitas pesquisas sobre vários algoritmos de amostragem, Metropolis-Hastings, etc.) e qual é a importância dos priores. Eu não estou tão familiarizado com a pesquisa sobre estatística bayesiana, então minha generalização pode estar um pouco fora. Indo para preferências pessoais, não obstante o fato de que eu fui treinado mais ou menos como um frequencista, eu não gosto que as estatísticas Bayesiana utiliza bastante um subconjunto restrito de distribuições disponíveis ...
mpiktas
3
Sempre começa com a distribuição normal e seus conjugados e até onde isso leva você. Como quase todos os dados em que trabalho normalmente não são distribuídos, sou imediatamente suspeito e prefiro trabalhar com métodos que são independentes de distribuição. No entanto, essa é uma preferência pessoal, e acho que, no trabalho aplicado, ainda não encontrei um problema para o qual a abordagem freqüentista falhasse tão espetacularmente que eu precisaria mudar para a bayesiana.
Mpgtas 19/08/16
4
"Ele sempre começa com a distribuição normal e seus conjugados e até onde isso leva você ..." - é por isso que se usa métodos de Monte Carlo para amostrar a partir da distribuição posterior dos parâmetros; estes funcionam também para distribuições gerais (software BUGS e suas variantes).
John Donn
25

Não gosto de filosofia, mas gosto de matemática e quero trabalhar exclusivamente dentro da estrutura dos axiomas de Kolmogorov.

Como exatamente você aplicaria os axiomas de Kolmogorov sozinho, sem qualquer interpretação? Como seria você interpreta probabilidade? O que você diria a alguém que lhe perguntou: "O que sua estimativa de probabilidade significa?" 0.5Você diria que seu resultado é um número0.5, o que é correto, pois segue os axiomas? Sem nenhuma interpretação, você não poderia dizer que isso sugere com que frequência esperaríamos ver o resultado se repetíssemos nosso experimento. Você também não pode dizer que esse número indica o quanto você está certo sobre a possibilidade de um evento acontecer. Você também não pode responder que isso indica a probabilidade de você acreditar que o evento seja. Como você interpretaria o valor esperado - como alguns números multiplicados por outros números e somados válidos, pois seguem os axiomas e alguns outros teoremas?

Se você quiser aplicar a matemática ao mundo real, precisará interpretá-la. Os números sozinhos sem interpretações são ... números. As pessoas não calculam os valores esperados para estimar os valores esperados, mas para aprender algo sobre a realidade.

Além disso, a probabilidade é abstrata, enquanto aplicamos estatísticas (e probabilidade per se) a acontecimentos do mundo real. Veja o exemplo mais básico: uma moeda justa. Na interpretação freqüentista, se você jogasse uma moeda assim muitas vezes, esperaria o mesmo número de caras e coroas. No entanto, em um experimento da vida real, isso quase nunca aconteceria. Portanto, a probabilidade de realmente não tem nada a ver com uma moeda em particular lançada um número específico de vezes.0.5

A probabilidade não existe

- Bruno de Finetti

Tim
fonte
3
"Se você jogasse uma moeda assim muitas vezes, esperaria o mesmo número de caras e coroas" - esse é um entendimento incorreto da lei dos grandes números. Veja o capítulo III do Volume 1 de Uma Introdução à Teoria das Probabilidades e Aplicações de Feller . Por exemplo, na p.67 "Em uma população de moedas normais, a maioria é necessariamente desajustada".
precisa saber é o seguinte
11
@ William então o que exatamente você responderia à pergunta "o que significa p = 0,5?" onde p é a estimativa de probabilidade no experimento de sorteio ...?
Tim
11
Você também está citando Feller, que menciona "maioria" - a maioria do que exatamente se você não está fazendo interpretações freqüentes de probabilidade ...?
Tim
7
Coisas simplificadoras demais: do ponto de vista freqüentista, a probabilidade está relacionada às proporções de eventos que acontecem entre os possíveis; na interpretação bayesiana, trata-se de quanto algo é crível (ver en.wikipedia.org/wiki/Probability#Interpretations ). Ao me falar sobre o espaço da amostra, etc., você assumiu que há algo além do sorteio futuro único - esta é a sua interpretação da probabilidade, já que haverá apenas um sorteio único; portanto, todo o argumento sobre o espaço amostral não se aplica a isto. Você está perfeitamente certo com sua interpretação, mas isto é
Tim
5
interpretação. Para aplicar a probabilidade a acontecimentos do mundo real, você precisa fazer essas interpretações. Qual é a probabilidade de Trump vencer a eleição dos EUA em 2016? Esta pergunta não pode ser respondida se você não fizer suposições sobre qual é a probabilidade.
Tim
10

Minha opinião sobre o contraste entre a inferência bayesiana e a freqüentista é que a primeira questão é a escolha do evento para o qual você deseja uma probabilidade. Os freqüentistas assumem o que você está tentando provar (por exemplo, uma hipótese nula) e depois calculam a probabilidade de observar algo que você já observou, sob essa suposição. Existe uma analogia exata entre essas probabilidades de ordem de fluxo de informações reversas e a sensibilidade e especificidade no diagnóstico médico, que causaram enormes mal-entendidos e precisam ser resgatadas pela regra de Bayes para obter probabilidades avançadas ("probabilidades pós-teste"). Os bayesianos calculam a probabilidade de um evento, e é impossível calcular probabilidades absolutas sem uma âncora (a anterior). A probabilidade bayesiana da veracidade de uma afirmação é muito diferente da probabilidade freqüentista de observar dados sob uma certa suposição incognoscível. As diferenças são mais pronunciadas quando o freqüentador deve se ajustar a outras análises que foram feitas ou poderiam ter sido feitas (multiplicidade; teste seqüencial etc.).

Portanto, a discussão da base matemática é muito interessante e é uma discussão muito apropriada. Mas é preciso fazer uma escolha fundamental de probabilidades para a frente e para trás. Portanto, o que está condicionado, que não é exatamente matemática, é incrivelmente importante. Os bayesianos acreditam que o condicionamento total ao que você já sabe é fundamental. Os freqüentistas condicionam com mais frequência o que torna a matemática simples.

Frank Harrell
fonte
9

Vou dividir isso em duas perguntas separadas e responder a cada uma.

1.) Dadas as diferentes visões filosóficas do que probabilidade significa na perspectiva freqüentista e bayesiana, existem regras matemáticas de probabilidade que se aplicam a uma interpretação e não a outra?

Não. As regras de probabilidade permanecem exatamente as mesmas entre os dois grupos.

2.) Os bayesianos e os freqüentistas usam os mesmos modelos matemáticos para analisar dados?

De um modo geral, não. Isso ocorre porque as duas interpretações diferentes sugerem que um pesquisador pode obter informações de diferentes fontes. Em particular, pensa-se frequentemente que a estrutura frequentista sugere que se pode fazer inferência sobre os parâmetros de interesse apenas a partir dos dados observados, enquanto uma perspectiva bayesiana sugere que se deve incluir também conhecimentos especializados independentes sobre o assunto. Diferentes fontes de dados significam que diferentes modelos matemáticos serão utilizados para análise.

É também de notar que há muitas divisões entre os modelos utilizados pelos dois campos que está mais relacionado com o que tem sido feito do que o que podeser feito (ou seja, muitos modelos tradicionalmente usados ​​por um campo podem ser justificados pelo outro campo). Por exemplo, os modelos de BUGs (inferência bayesiana usando amostragem Gibbs, um nome que não descreve mais com precisão o conjunto de modelos por várias razões) são tradicionalmente analisados ​​com métodos bayesianos, principalmente devido à disponibilidade de ótimos pacotes de software para fazer isso (JAGs, Stan, por exemplo). No entanto, nada diz que esses modelos devam ser estritamente bayesianos. Na verdade, trabalhei no projeto NIMBLE, que constrói esses modelos na estrutura dos BUGs, mas permite ao usuário muito mais liberdade sobre como fazer inferência sobre eles. Enquanto a grande maioria das ferramentas que fornecemos eram métodos Bayesian MCMC personalizáveis, também se podia usar a estimativa de máxima verossimilhança, um método tradicionalmente frequentista, para esses modelos. Similarmente, os anteriores são frequentemente vistos como o que você pode fazer com o bayesiano e não com os modelos freqüentistas. No entanto, a estimativa penalizada pode fornecer os mesmos modelos usando estimativas de parâmetros de regularização (embora a estrutura bayesiana forneça uma maneira mais fácil de justificar e escolher parâmetros de regularização, enquanto os freqüentistas ficam, no melhor cenário de muitos dados ", escolhemos esses parâmetros de regularização porque, em um grande número de amostras com validação cruzada, eles reduziram o erro estimado fora da amostra "... para melhor ou para pior).

Cliff AB
fonte
11
Objeto, de certa forma, a esta citação: "Em particular, pensa-se que a estrutura freqüentista sugere que se pode deduzir os parâmetros de interesse apenas a partir dos dados observados, enquanto uma perspectiva bayesiana sugere que se deve incluir também conhecimentos especializados independentes. sobre o tema". Principalmente pela implicação de que os freqüentadores não estejam interessados, por qualquer motivo, em conhecimento especializado independente sobre o assunto. A diferença entre frequentistas e Bayesians não é que o primeiro se recusam obstinadamente a usar conhecimento ou contexto anterior ... (1/2)
Ryan Simmons
11
... mas as duas escolas de pensamento utilizam esse conhecimento / contexto anterior de maneiras diferentes. Você pode argumentar que a perspectiva bayesiana adota uma abordagem mais baseada em princípios para incorporar esse conhecimento prévio diretamente em um modelo (no entanto, eu argumentaria que o uso generalizado de priores não informativos dilui bastante esse argumento). Mas não acho justo caracterizá-lo como uma questão de frequentistas que NÃO usam essa informação. (2/2)
Ryan Simmons
11
@RyanSimmons: certo, é por isso que afirmei "costuma-se sugerir ...". Por exemplo, se um pesquisador observa que a regularização de estimativas de parâmetros em torno da opinião de um especialista tende a levar a melhores previsões a longo prazo, não há problema em incorporar isso em uma estrutura frequentista ("baseada em medidas freqüentistas, esse estimador aumentado tem melhor características operacionais de longo prazo que o estimador somente de dados "). Mas isso não é tão direto quanto na estrutura bayesiana.
Cliff AB
11
Justo! Eu concordo.
Ryan Simmons
5

Bayesianos e freqüentistas pensam que probabilidades representam coisas diferentes. Os freqüentistas pensam que estão relacionados a frequências e só fazem sentido em contextos em que as frequências são possíveis. Os bayesianos os vêem como formas de representar incerteza. Como qualquer fato pode ser incerto, você pode falar sobre a probabilidade de qualquer coisa.

A consequência matemática é que os freqüentistas pensam que as equações básicas de probabilidade apenas se aplicam às vezes, e os bayesianos pensam que sempre se aplicam. Portanto, eles veem as mesmas equações como corretas, mas diferem em quão gerais são.

Isso tem as seguintes consequências práticas:

(1) Os bayesianos derivarão seus métodos das equações básicas da teoria das probabilidades (dos quais o teorema de Bayes é apenas um exemplo), enquanto os freqüentistas inventam uma abordagem ad-hoc intuitiva após a outra para resolver cada problema.

(2) Existem teoremas que indicam que, se você raciocina com informações incompletas, é melhor usar as equações básicas da teoria das probabilidades de forma consistente ou estará com problemas. Muitas pessoas têm dúvidas sobre quão significativos são esses teoremas, mas é isso que vemos na prática.

Por exemplo, é possível que os Intervalos de Confiança de 95% de aparência inocente do mundo real consistam inteiramente em valores que são comprovadamente impossíveis (das mesmas informações usadas para derivar o Intervalo de Confiança). Em outras palavras, os métodos freqüentistas podem contradizer a lógica dedutiva simples. Os métodos bayesianos derivados inteiramente das equações básicas da teoria das probabilidades não têm esse problema.

(3) Bayesiano é estritamente mais geral que Frequentista. Como pode haver incerteza sobre qualquer fato, qualquer fato pode ser atribuído a uma probabilidade. Em particular, se os fatos em que você está trabalhando estão relacionados às frequências do mundo real (como algo que você está prevendo ou faz parte dos dados), os métodos bayesianos podem considerá-los e usá-los da mesma maneira que usariam qualquer outro fato do mundo real.

Consequentemente, qualquer problema que os freqüentistas considerem que seus métodos se aplicam aos bayesianos também pode funcionar naturalmente. O inverso, no entanto, muitas vezes não é verdadeiro, a menos que os freqüentistas inventem subterfúgios para interpretar sua probabilidade como uma "frequência", como, por exemplo, imaginar os múltiplos universos ou inventar repetições hipotéticas até o infinito, que nunca são executadas e geralmente não podem ser em princípio. .

Laplace
fonte
7
Você poderia fornecer algumas referências às declarações em negrito que forneceu? Por exemplo "Os freqüentistas pensam que as equações básicas de probabilidade apenas às vezes se aplicam"? E quais são as equações básicas de probabilidade?
Mpgtas 18/08/16
6
Muito mais interessante que o debate B vs F é sua observação sobre intervalos de confiança que contêm valores impossíveis. Você pode dar ou vincular a um exemplo específico de um IC de 95% que contém apenas valores impossíveis? Essa poderia ser uma daquelas coisas que todo estatístico deveria ter visto pelo menos uma vez na vida (como uma história de advertência), mas eu não.
Vincent Vincent
9
O fato de um IC poder conter todos os valores "impossíveis" não "contradiz a lógica dedutiva simples". Isso soa como um mal-entendido da definição de um IC - ou talvez uma confusão entre as interpretações de ICs e intervalos credíveis.
whuber
7
Parece mais um discurso filosófico do que uma resposta à pergunta do OP (que não era estritamente sobre filosofia).
Cliff AB
5
"É possível a inferência que todo estatístico faria de um IC (sem o qual os ICs não têm nenhum propósito prático ou contato com o mundo real) contradizer o que pode ser deduzido da mesma evidência". Isso ainda não confirma sua afirmação de que os freqüentistas ignoram as regras da probabilidade. E temo que isso esteja seguindo o caminho trilhado de "Bayes vs Frequentists: fight!" que a maioria dos leitores aqui prefere evitar.
Cliff AB
3

Pergunta: Então, se queremos ser matematicamente corretos, não devemos proibir qualquer interpretação de probabilidade? Ou seja, o bayesiano e o freqüentismo são matematicamente incorretos?

Sim, e é exatamente isso que as pessoas fazem tanto em Filosofia da Ciência quanto em Matemática.

  1. Abordagem filosófica. A Wikipedia fornece um compêndio de interpretações / definições de probabilidade .

  2. Os matemáticos não são seguros. No passado, a escola Kolmogoroviana tinha o monopólio da probabilidade: uma probabilidade é definida como uma medida finita que atribui 1 a todo o espaço ... Essa hegemonia não é mais válida, pois há novas tendências na definição de probabilidade, como probabilidade quântica e Probabilidade livre .

Tim Allen
fonte
Você entende o que significa relaxar suposições de comutatividade de variáveis ​​aleatórias? (com relação à probabilidade livre - não conheço QM suficiente para entender as idéias por trás da probabilidade quântica) Isso significa que ou ? Acho que a discussão das álgebras de von Neumann e álgebras implica a última. X Y Y X C X+YY+XXYYXC
precisa saber é o seguinte
7
As álgebras de William não modelam corretamente a maioria das estatísticas aplicadas. (Por analogia, a invenção de números complexos de maneira alguma afetou a aplicação dos números naturais aos fenômenos. Nenhuma extensão possível do conceito matemático de probabilidade jamais mudaria como a probabilidade - como atualmente entendida - também é aplicada.) Tim , essa resposta é intrigante: a única questão puramente matemática referente a qualquer aplicação de probabilidade é se seus axiomas são consistentes e isso é facilmente comprovado com modelos simples. C
whuber
2

O debate bayes / frequentista é baseado em numerosos motivos. Se você está falando sobre bases matemáticas, acho que não há muito.

Ambos precisam aplicar vários métodos aproximados para problemas complexos. Dois exemplos são "bootstrap" para frequentist e "mcmc" para bayesian.

Ambos vêm com rituais / procedimentos sobre como usá-los. Um exemplo freqüentador é "propor um estimador de algo e avaliar suas propriedades sob amostragem repetida", enquanto um exemplo bayesiano é "calcular distribuições de probabilidade para o que você não sabe, dependendo do que você sabe". Não há base matemática para usar probabilidades dessa maneira.

O debate é mais sobre aplicação, interpretação e capacidade de resolver problemas do mundo real.

De fato, isso costuma ser usado por pessoas que debatem "seu lado", onde usarão um "ritual / procedimento" específico usado pelo "outro lado" para argumentar que toda a teoria deve ser jogada fora por eles. Alguns exemplos incluem ...

  • usando anteriores estúpidos (e não verificando-os)
  • usando ICs estúpidos (e não verificando-os)
  • confundindo uma técnica computacional com a teoria (bayes não é mcmc !! O mesmo vale para equiparar validação cruzada com aprendizado de máquina)
  • falando sobre um problema com uma aplicação específica com uma teoria e não como a outra teoria resolveria o problema específico "melhor"
probabilityislogic
fonte
Haha sim, isso é muito verdade, eu acho. Eu tive que ouvir um professor falar por meia hora sobre como o bayesianismo é terrível, porque inventar priors subjetivamente não faz sentido e o tempo todo eu estava pensando "bem, duh, então é por isso que você não escolheria um antes dessa maneira ". O que quero dizer é que concordo que os argumentos do palhaço são abundantes.
precisa saber é o seguinte
1

Então, não se seguiria que a única versão matematicamente correta das estatísticas é aquela que se recusa a ser qualquer coisa, menos inteiramente agnóstica em relação ao bayesianismo e ao freqüentismo? Se os métodos com ambas as classificações são matematicamente corretos, não é uma prática imprópria preferir alguns a outros, porque isso priorizaria uma filosofia vaga e mal definida, em vez de matemática precisa e bem definida?

Não. Não segue. Indivíduos que são incapazes de sentir suas emoções são biologicamente incapazes de tomar decisões, incluindo decisões que parecem ter apenas uma solução objetiva. A razão é que a tomada de decisão racional depende de nossa capacidade emocional e de nossas preferências cognitivas e emocionais. Enquanto isso é assustador, é a realidade empírica.

Gupta R, Koscik TR, Bechara A, Tranel D. A amígdala e a tomada de decisão. Neuropsychologia. 2011; 49 (4): 760-766. doi: 10.1016 / j.neuropsychologia.2010.09.029.

Uma pessoa que prefere maçãs a laranjas não pode defender isso, pois é uma preferência. Por outro lado, uma pessoa que prefere laranjas a maçãs não pode defender isso racionalmente, pois é uma preferência. As pessoas que preferem maçãs geralmente comem laranjas porque o custo das maçãs é muito alto comparado ao custo das laranjas.

Grande parte do debate bayesiano e freqüentista, bem como o debate verossimilhante e freqüentista, estava centrado em erros de entendimento. No entanto, se imaginarmos que temos uma pessoa que é bem treinada em todos os métodos, incluindo métodos menores ou não mais usados, como probabilidade carnapiana ou estatística fiducial, é racional que eles prefiram algumas ferramentas a outras ferramentas.

A racionalidade depende apenas de preferências; o comportamento depende de preferências e custos.

Pode ser que, de uma perspectiva puramente matemática, uma ferramenta seja melhor que a outra, onde melhor é definida usando alguma função de custo ou utilidade, mas, a menos que exista uma resposta única em que apenas uma ferramenta possa funcionar, os custos e os custos as preferências devem ser pesadas.

Considere o problema de um apostador que pensa em oferecer uma aposta complexa. Claramente, o agenciador de apostas deve usar métodos bayesianos neste caso, pois são coerentes e tem outras propriedades agradáveis, mas também imagine que o agenciador de apostas tenha apenas uma calculadora e nem mesmo um lápis e papel. Pode ser que o apostador, com o uso de sua calculadora e mantendo o controle de tudo em sua mente, possa calcular a solução Frequentist e não tenha chance na Terra de calcular o Bayesiano. Se ele estiver disposto a correr o risco de ser "holandês contratado" e também encontrar o custo potencial pequeno o suficiente, então é racional que ele ofereça apostas usando métodos freqüentistas.

É racional que você seja agnóstico, porque suas preferências emocionais acham que isso é melhor para você. Não é racional que o campo seja agnóstico, a menos que você acredite que todas as pessoas compartilham suas preferências emocionais e cognitivas, o que sabemos que não é o caso.

Em resumo, eu não entendo qual é a base matemática para o debate bayesiano versus freqüentista, e se não há base matemática para o debate (que é o que a Wikipedia afirma), não entendo por que é tolerada em tudo. discurso acadêmico.

O objetivo do debate acadêmico é trazer luz para idéias antigas e novas. Grande parte do debate bayesiano versus freqüentista e o debate verossimilhança versus frequentista vieram de mal-entendidos e falta de pensamento. Alguns vieram de não chamar preferências pelo que são. Uma discussão sobre as virtudes de um estimador ser imparcial e barulhento versus e estimador ser tendencioso e preciso é uma discussão de preferências emocionais, mas até que alguém o tenha, é bem provável que o pensamento sobre ele permaneça confuso em todo o campo.

Não gosto de filosofia, mas gosto de matemática e quero trabalhar exclusivamente dentro da estrutura dos axiomas de Kolmogorov.

Por quê? Porque você prefere os de Kolmogorov aos de Cox, de Finetti ou de Savage? Essa preferência está chegando? Além disso, probabilidade e estatística não são matemática, elas usam matemática. É um ramo da retórica. Para entender por que isso pode ser importante, considere sua declaração:

se um método estiver matematicamente correto, será válido usá-lo quando as suposições da matemática subjacente forem válidas; caso contrário, se não for matematicamente correto ou se as suposições não forem válidas, é inválido usá-lo.

Isso não é verdade. Há um bom artigo sobre intervalos de confiança e seus abusos, sua citação é:

Morey, Richard; Hoekstra, Rink; Rouder, Jeffrey; Lee, Michael; Wagenmakers, Eric-Jan, A falácia de confiar em intervalos de confiança, Psychonomic Bulletin & Review, 2016, Vol.23 (1), pp.103-123

Se você ler os diferentes intervalos de confiança em potencial no artigo, cada um será matematicamente válido, mas se você avaliar suas propriedades, elas diferem substancialmente. De fato, alguns dos intervalos de confiança fornecidos podem ser considerados como tendo "más" propriedades, embora atendam a todas as suposições do problema. Se você retirar o intervalo bayesiano da lista e se concentrar apenas nos quatro intervalos freqüentistas, se fizer uma análise mais profunda de quando os intervalos são amplos ou estreitos ou constantes, você descobrirá que os intervalos podem não ser "iguais" "embora cada um atenda às premissas e requisitos.

Não basta que seja matematicamente válido para que seja útil ou, alternativamente, o mais útil possível. Da mesma forma, poderia ser matematicamente verdadeiro, mas prejudicial. No artigo, há um intervalo mais estreito, precisamente quando há a menor quantidade de informações sobre o local verdadeiro e mais amplo quando existe um conhecimento perfeito ou quase perfeito sobre o local do parâmetro. Independentemente disso, ele atende aos requisitos de cobertura e atende às premissas.

A matemática nunca pode ser suficiente.

Dave Harris
fonte
Eu realmente gosto do segundo artigo. (A conclusão do primeiro artigo foi algo que eu já tinha ouvido argumentar de uma maneira que me convenceu, por isso parecia desnecessário ler.) Concordo principalmente com o que você diz. Para ser justo, quando digo matemática, eu tinha mais em mente o significado "matemática aplicada", bem como o entendimento implícito de que os assuntos e direções da pesquisa matemática, bem como as escolhas dos axiomas matemáticos, pretendem modelar observações do mundo real. Além disso, não acho que o segundo artigo contradiga o que estou dizendo - os autores adotam as falácias comuns, frase
Chill2Macht 10/17/17
matematicamente (isto é, precisamente, rigorosamente) e, em seguida, forneça contra-exemplos mostrando que são falsos. O que eu estava tentando dizer (se me lembro corretamente de minhas intenções há muitos meses), era que se sua "filosofia" ou "idéia filosófica" ou qualquer outra coisa não pode ser formulada / reduzida a uma afirmação precisa, ou seja, declarada sem ambiguidade, então é inútil dar voltas. Por exemplo, freqüentadores que fazem uma distinção entre MLE (MAP com um plano anterior) e outros tipos de objetivos anteriores por razões vagas - se sua objeção não puder ser declarada na forma de um axioma matemático, então existe
Chill2Macht
não é uma boa razão para declarar sua objeção em primeiro lugar, porque sua objeção é vaga demais para ser falsificável. Só porque a estatística está "usando a matemática" não significa, na minha opinião, que os estatísticos são justificados por serem pensadores menos espertos do que os matemáticos. Os matemáticos argumentam o tempo todo sobre quais axiomas matemáticos são "valiosos" ou "interessantes" a serem considerados, como você aponta, baseados em última análise, apenas em preferências emocionais. Mas esses argumentos são realmente capazes de ter substância e movendo campos para a frente, porque as posições de cada lado são claramente e unambiguous-
Chill2Macht
declarado - por exemplo, pode-se dizer com clareza que os intuicionistas rejeitam o uso da Lei do Meio Excluído, enquanto outros matemáticos se contentam em usá-la. Observe também o feroz debate sobre o axioma da escolha. Mas tanto a Lei do Meio Excluído quanto o Axioma da Escolha são declarações precisas que, dadas outras suposições precisas , podem ser falsificadas, demonstradas falsificáveis, comprovadas etc. (depende das outras suposições). Ou seja, o que eu estava tentando argumentar é que "filosofia" / "emoção" deve apenas entrar em jogo para indicar preferências para diferentes axiomas inequívocos / precisos . Como
Chill2Macht
comparado a alguém que diz que "os priores são ruins" e que não fornece um axioma matemático que eles acreditam que a inferência deve satisfazer, e que a escolha de um prior poderia ser logicamente violada. O primeiro é inútil, enquanto o segundo é construtivo, porque dá aos oponentes algo concreto para trabalhar, por exemplo, a oportunidade de propor um axioma alternativo que, para eles, "parece mais razoável assumir para esse problema". É por isso que eu realmente gosto do segundo artigo ao qual você vinculou, porque faz exatamente isso - "matematiza" interpretações falsas de ICs e prova que elas são falsas.
Chill2Macht