Se bem entendi, nas estatísticas bayesianas, um parâmetro é uma variável aleatória. Ao estimar o parâmetro, uma distribuição anterior é combinada com os dados para produzir uma distribuição posterior.
Questão:
- Todos os pontos de dados (na amostra e na população) são gerados pela mesma realização do parâmetro?
- Se sim, por que me importaria com a distribuição (ou seja, outras realizações possíveis e suas respectivas massas de probabilidade ou valores de densidade de probabilidade) do parâmetro? Afinal, estou tentando descobrir algo sobre essa população em particular a partir da amostra e do anterior.
- Caso contrário, como isso se reflete nas fórmulas da estimativa de parâmetros bayesianos?
Ao mesmo tempo, entendo que minhas crenças, sejam iniciais (refletidas pelo anterior) ou atualizadas (refletidas pelo posterior), vêm como uma distribuição, e não tenho nenhum problema com isso. Mas me pergunto se / por que devo assumir que o parâmetro em si é uma variável aleatória.
Edit: Recebi algumas respostas que são úteis, mas eu apreciaria outra ou algumas que são mais importantes.
Respostas:
Nas estatísticas freqüentistas, assumimos que não sabemos nada sobre os parâmetros de interesse antes de ver os dados.
Nas estatísticas bayesianas, relaxamos essa suposição, reconhecendo que podemos saber algo sobre os possíveis valores do (s) parâmetro (s) de interesse antes de ver os dados - por exemplo, qual a probabilidade de o parâmetro assumir valores em um determinado intervalo . Depois de ver os dados, podemos refinar / atualizar esse conhecimento anterior. Portanto, as distribuições anteriores dos parâmetros de interesse encapsulam nosso conhecimento / crença sobre os possíveis valores desses parâmetros antes de ver os dados, enquanto as distribuições posteriores correspondentes refinam esse conhecimento / crença com entrada dos dados.
As estatísticas freqüentistas e bayesianas assumem que um parâmetro é uma quantidade desconhecida que deve ser estimada. Mas eles divergem em termos das entradas necessárias para estimar essa quantidade: dados apenas para estatísticas freqüentistas versus conhecimento / crença anterior, mais dados para estatísticas bayesianas.
Quando os bayesianos relatam a média / mediana / modo de uma distribuição posterior para um parâmetro específico, o fazem porque acreditam que esse é o valor mais provável do parâmetro (ou seja, quantidade desconhecida a ser estimada). Mas o parâmetro é desconhecido, portanto, uma medida de incerteza em torno desse valor mais provável (por exemplo, intervalo de 95% de credibilidade) dá uma sensação de onde o valor verdadeiro do parâmetro pode estar.
Como freqüentador que se aproxima do campo bayesiano, achei útil pensar no parâmetro como algo desconhecido que estamos tentando estimar e nas distribuições anterior e posterior como ferramentas para encapsular nosso estado de conhecimento / crença sobre essa entidade desconhecida antes e depois de vermos os dados, respectivamente.
Enquanto os freqüentadores adotam a abordagem de linha dura que não sabemos nada sobre a entidade desconhecida que estamos perseguindo, os bayesianos adotam uma abordagem mais realista e sutil que podemos realmente saber alguma coisa e que, quando virmos os dados, melhoraremos sobre esse conhecimento.
Por isso, nos preocupamos com distribuições no contexto bayesiano, porque são veículos convenientes para expressar o estado atual de conhecimento / crença (para distribuições anteriores) e o esperançosamente melhorado estado de conhecimento / crença alcançado após a visualização dos dados (para distribuições posteriores).
Termo aditivo:
Pessoalmente, subscrevo a visão captada de forma tão eloquente por Sander Greenland no artigo Perspectivas bayesianas para a pesquisa epidemiológica: I. Fundamentos e métodos básicos , International Journal of Epidemiology, Volume 35, Edição 3, 1 de junho de 2006, Páginas 765–775 (que está disponível em https://academic.oup.com/ije/article/35/3/765/735529 ):
" Costuma-se dizer (incorretamente) que 'parâmetros são tratados como fixos pelo freqüentista, mas aleatórios pelo bayesiano'. Para freqüentadores e bayesianos, o valor de um parâmetro pode ter sido corrigido desde o início ou pode ter sido gerado a partir de um mecanismo fisicamente aleatório.Em ambos os casos, ambos supõem que tenha assumido algum valor fixo que gostaríamos de saber.O Bayesiano usa modelos formais de probabilidade para expressar incerteza pessoal sobre esse valor. A 'aleatoriedade' nesses modelos representa incerteza pessoal sobre o valor do parâmetro; não é uma propriedade do parâmetro (embora esperemos que ele reflita com precisão as propriedades dos mecanismos que produziram o parâmetro) ".
Veja http://thestatsgeek.com/2015/04/22/bayesian-inference-are-parameters-fixed-or-random/ para mais reflexões sobre este tópico.
fonte
Sua pergunta reflete a queixa bayesiana de que os métodos freqüentistas violam o princípio da probabilidade. Por que considerar amostras invisíveis na realização de um teste t? Porque os métodos freqüentistas têm média sobre o espaço da amostra. Por que considerar as realizações do parâmetro irrelevantes para sua amostra? A resposta fraca é porque os métodos bayesianos têm média sobre o espaço do parâmetro.
Essa pergunta seria um ataque muito legítimo, principalmente aos métodos subjetivos bayesianos, se alguém quisesse ser polêmico. Embora o princípio da probabilidade tenha sido mostrado defeituoso sob algumas maneiras de pensar sobre isso, a construção filosófica dos métodos freqüentistas não parece refletir o trabalho bayesiano. Esse deveria ser um artigo, embora provavelmente compartilhe as falhas do princípio da probabilidade nas estatísticas bayesianas.
A resposta mais forte é que, emboral imn → ∞θ^→ θ nos falta um tamanho infinito de amostra. Como tal, uma vez que os métodos bayesianos tratam a aleatoriedade como incerteza, e não como um acaso, como os métodos freqüentistas, essa é uma quantificação da incerteza que resta em sua compreensão da natureza. Se você precisar agir sobre o parâmetro e reduzi-lo para apenas dois valores possíveisθ^UMA e θ^B diga com Pr ( θ =θ^UMA) = 0,75 pode ser perigoso e certamente é incoerente (no sentido de Finetti) ignorar como o único valor possível possível.θ^B
Para dar um exemplo concreto, testei 78 modelos de falência e constatei que a probabilidade cumulativa posterior para 76 deles era de um por cento, enquanto os outros dois eram aproximadamente 54% e 46%. Felizmente, nenhum dos modelos compartilhava variáveis. Uma razão para se preocupar é que, quase com certeza, eu tenho o verdadeiro modelo errado. A média do modelo da densidade preditiva me permitiu criar um erro extraordinariamente pequeno fora da amostra. Eu me preocupo com os modelos de alta probabilidade, e se eu tivesse os recursos para calcular os resultados em um modelo completo de média que incluísse os 76 modelos de baixa probabilidade, os resultados não teriam mudado no número de dígitos que considero significativos.1 / 10 ,000t h
Este é o teorema de Bayes. Se alguém é intelectualmente honesto, então a verdadeira visão subjetivista extrema, à la Savage , exige nada mais que uma densidade posterior adequada. Se eu vou jogar com você, de acordo com Finetti, sobre se a gravidade é válida ou não saindo de um prédio de dez andares, devo considerar visões alternativas da realidade antes de fazer minha aposta. Agora, se eu quisesse incluir a teoria da decisão, já que sair de um prédio de dez andares é uma versão natural da função de custo tudo ou nada, então se minhas crenças contra a gravidade são suficientemente fortes, conclui-se que eu deveria sair do prédio . Ao fazer isso, eu me preocuparia apenas com esse experimento, pois a repetibilidade se torna um problema se eu estiver errado. Nesse caso, sua pergunta não tem significado, a menos que eu esteja correto. Por outro lado, se estou apostando dinheiro, a perda quadrática seria, na maioria dos casos reais, a função de perda apropriada, dada a natureza da curva de demanda por jogos e o relacionamento com as receitas dos jogos.
O potencial para uma mudança de parâmetro é refletido na atualização bayesiana. Sua pergunta é significativa apenas na repetição. Esse é o epítome da atualização bayesiana em uma estrutura puramente subjetivista. Como modelar desenhos subjetivos de parâmetros, executando muitas experiências e juntando-as para restringir o posterior à solução da natureza? Este é um sistema de pensamento construído em torno do modelo generativo.
EDIT Acho que devo voltar um pouco. Há mais de uma interpretação e mais de uma axiomatização dos métodos bayesianos. Eles sustentam um pouco suas perguntas.
Na interpretação subjetiva, os parâmetros são sorteados aleatoriamente a partir de uma distribuição. Essa distribuição é a densidade anterior. Se você pensa sobre o numerador do teorema de Bayes, , segue-se logicamente que o numerador depende fortemente do anterior. Como é aleatório, segue-se que um experimento pode ser pensado como uma instanciação de . Se você fizer outro experimento, será outra instanciação de . O objetivo é encontrar a verdadeira distribuição dos parâmetros. Essa distribuição poderia ter massa infinita em um único ponto e massa zero em qualquer outro lugar.f( x | θ ) π( θ ) θ θ θ
Na interpretação objetiva, os parâmetros são fixados como na metodologia Frequentist, mas são desconhecidos. O prior representa uma quantificação da probabilidade desconhecida que . A probabilidade é a distribuição da amostra. Há algum parâmetro que é conhecido pela natureza que a natureza usa para criar um amostra . O prior da natureza tem uma massa infinita em um único ponto e é zero em outro lugar. Seu prior contém as informações sobre o que você descobriu até o momento. A probabilidade considera apenas a amostra que foi vista e ignora o restante do espaço da amostra.θ=k θ X
Não há diferença matemática de forma entre as duas interpretações. Há também uma "interpretação de conveniência". Seria algo assim. Os métodos bayesianos são realmente úteis, mas descobrir os anteriores não é. Se for possível criar um prior que não prejudique a descoberta do parâmetro, o prior mais simples e conveniente deve ser usado, pois o prior pode ser incrivelmente valioso na regularização da amostra. Nesta visão, os parâmetros ainda são variáveis aleatórias, mas ninguém pensa muito sobre o que isso significa. É apenas útil.
Existem três conjuntos principais de axiomas por trás do pensamento bayesiano. Em alguns casos, a escolha realmente importa. Isso não se deve a diferenças de cálculo, mas a diferenças teóricas. Por exemplo, os axiomas de Savage permitem que os pesquisadores separem utilidade e probabilidade. os axiomas de Finetti não permitem que os pesquisadores separem utilidade da probabilidade. Isso ocorre porque a probabilidade não existe na construção de Finetti.
de Finetti tem dois axiomas. A primeira é que um apostador não aceitará apostas que resultem em uma perda segura em todos os estados da natureza. A segunda é que o apostador aceitará todas as apostas finitas pelos preços indicados pelo apostador. Essa é uma maneira incomum de motivar um teste de probabilidade da velocidade de um objeto em temperatura e pressão padrão, mas funciona. Reafirma a probabilidade em termos de apostas. Observe que nem probabilidade nem utilidade são mencionadas em nenhum dos axiomas. A probabilidade no mundo de Finetti é apenas um cálculo que usamos para pensar sobre o mundo e realmente não existe. Nem utilidade. Portanto, se você estiver usando utilidade e probabilidade juntos, eles serão indistinguíveis, pois ambos são cálculos abstratos que existem para ajudar a entender o mundo. Eles são meramente construções da mente.
Como exemplo, considere como um freqüentista e um bayesiano entenderiam o jogo de Cho Han. Para entender a perspectiva bayesiana, assista ao filme japonês de 1962, Zatoichi. Cho Han é um jogo que depende se os dados são pares ou ímpares. É comumente usado como um dispositivo nos filmes da Yakuza. Isso ocorre porque, como qualquer físico, mágico ou vigarista lhe dirá, não existe lançamento aleatório de dados ou sorteio de moedas. O resultado é incerto para o público, mas perfeitamente certo para aqueles que o conhecem. É impossível que uma amostra seja aleatória porque, uma vez concluída, é corrigida. Você sabe. A questão é como os parâmetros podem ser variáveis aleatórias.
O que está faltando é a política que cria os parâmetros. Em um modelo perfeitamente especificado, não há como distinguir entre um conjunto de experimentos com extraído de e com incerteza sobre a localização de .θ π(θ) θ=θtrue θtrue
Quanto à segunda questão, você deve ler sobre a controvérsia da probabilidade. O princípio da probabilidade provavelmente não é válido, mas é a versão bayesiana da sua pergunta dois. É uma pergunta muito profunda e não pode ter uma resposta superficial. Você poderia escrever um livro e certamente um artigo sobre ele.
O princípio de verossimilhança se baseia em dois princípios e a inferência freqüentista o viola. Baseia-se em dois princípios: o princípio da condicionalidade e o princípio da suficiência. Se o princípio da condicionalidade e o princípio da suficiência se mantiverem, os valores p sempre serão uma maneira incorreta de determinar a inferência. Tanto o princípio da condicionalidade quanto o princípio da probabilidade são atraentes individualmente para a maioria dos estatísticos, mas, em conjunto, pode-se argumentar que eles separam o frequentismo. Sua pergunta pode ser vista como o paralelo freqüentista.
Como tal, você obteve uma resposta mais profunda do que pretendia. De fato, se eu fosse um estudante de doutorado, poderia me sentar e passar um tempo ponderando sua pergunta dois. Pode haver um profundo princípio subjacente lá.
Veja, por exemplo, pergunta de probabilidade de troca de pilhas
ou
palestra de probabilidade
fonte