Como os dados são gerados na estrutura bayesiana e qual é a natureza no parâmetro que gera os dados?

9

Eu estava tentando reaprender as estatísticas bayesianas (toda vez que achava que finalmente as recebia, surge outra coisa que não havia considerado antes ...), mas não estava claro (para mim) o que o processo de geração de dados na estrutura bayesiana, na verdade é.

A estrutura frequentista é clara para mim. Há alguns parâmetros "verdadeiros" e esse parâmetro gera os dados de acordo com a distribuição que parametriza.θ

No entanto, no cenário bayesiano, modelamos o parâmetro como uma variável aleatória. Essa parte não me confunde. Faz sentido, porque um bayesiano interpreta essa probabilidade como a incerteza em suas próprias crenças. Eles concordam em atribuir uma probabilidade a eventos não repetíveis. Então, a maneira como interpretei o "bayesianismo" foi que, acredito que há algum parâmetro que gera os dados, é definitivamente desconhecido, mas, no entanto, foi fixado uma vez que foi decidido por "natureza" (e talvez a natureza tenha decidido aleatoriamente o que deveria ser estar). No entanto, é fixo e, portanto, a criação foi um "evento não repetível". Mesmo não sendo repetível, estamos apenas tentando atualizar nossa própria crença deθdados fornecidos. Portanto, os dados podem ter sido gerados por qualquer um dos parâmetros considerados pela nossa distribuição de probabilidade (anterior), mas, no entanto, o parâmetro é fixo e desconhecido. Estamos apenas anexando um valor de probabilidade a ele.

Com essa visão, faz sentido supor que o processo de geração de dados seja quase idêntico ao do freqüentador. "Nature" seleciona o parâmetro usando a distribuição "true" "anterior" e uma vez que a variável aleatória obtém sua realização "true" (mas fixa), ela começa a gerar os dados que observamos.P ( θ )θP(θ)

Essa é a maneira padrão de interpretar o processo de geração de dados na estrutura bayesiana?

O principal da minha opinião é que, o parâmetro é definitivamente fixo (visto como uma realização de um rv) e gera os dados de acordo com . Portanto, outro ponto muito importante, na minha opinião, é que, para mim, nosso prior é apenas uma maneira quantificável de expressar nossa incerteza no evento fixo (e não repetível) de criar o parâmetro . É assim que as pessoas interpretam o ?θ θ P ( θ )θθθP(θ)


Nota humorística lateral:

Eu gostaria de poder perguntar à "Nature" como ela está fazendo isso e resolver isso de uma vez por todas ... lol.

Pinóquio
fonte
4
Eu não acho que colocamos uma quantificação no "evento de criação do parâmetro ". Em vez disso, a modelagem anterior é uma quantificação das limitações de nossas crenças e conhecimentos anteriores sobre . θθθ
Xian
4
Para mim, o método de geração de dados é exatamente o mesmo para um bayesiano e para um não bayesiano, ou seja, existe algum valor verdadeiro do parâmetro e esse parâmetro gera dados de acordo com as suposições do seu modelo (se o modelo for verdadeiro).
jaradniemi
@jaradniemi Eu acho que para mim é quase idêntico, no entanto, adia em um detalhe, especificando como foi escolhido em primeiro lugar. Para mim, primeiro a variável aleatória pega um valor escolhido pela natureza de acordo com seu verdadeiro "anterior" e depois começa a gerar dados, como expliquei. θ P ( x )θθP(x)
Pinocchio
2
@ Xian (+1). No entanto, você escreveu "Em vez disso, a modelagem anterior é uma quantificação das limitações de nossas crenças e conhecimentos anteriores sobre". Eu não entendo o propósito da palavra "limitação". Você pode detalhar isso para mim, por favor?
28416 peuhp

Respostas:

3

É bem direto: não há diferenças entre bayesianos e freqüentadores em relação à ideia do modelo de geração de dados.

Para entender isso, considere primeiro que o modelo de geração de dados é matematicamente codificado na probabilidade, que é a base para a inferência de bayesianos e freqüentadores. E não há diferença entre uma probabilidade bayesiana e freqüentista.

Agora, você poderia dizer: isso não significa que os bayesianos pensem que os parâmetros do processo de geração de dados são fixos. Claro, mas realmente, faz muito pouco sentido pensar de outra forma - qual seria o sentido de estimar uma quantidade que não é fixa? O que isso significaria matematicamente? Obviamente, pode ser que você tenha uma quantidade que não é um valor, mas uma distribuição. Mas então você estima a distribuição, para que ela seja corrigida novamente.

A diferença real, como diz Xi'an, não está na suposição sobre como nossos dados são gerados, mas na inferência. Então, quando você diz

No entanto, no cenário bayesiano, modelamos o parâmetro como uma variável aleatória.

Eu discordo - modelamos nosso conhecimento / incerteza sobre o parâmetro true como uma variável aleatória - que é a diferença sutil, mas importante - tratamos o parâmetro como variáveis ​​aleatórias para explorar nossa incerteza sobre o valor "true".

Florian Hartig
fonte
"qual seria o ponto de estimar uma quantidade que não é fixa?" Bem, em geral, no mundo real, temos sistemas dinâmicos, que mudam com o tempo, portanto, haveria casos de uso de estimativa de quantidades que mudam com o tempo.
Nbro 16/11/19
Sim, mas esse não era o ponto. A questão era se a inferência bayesiana supõe que exista um valor verdadeiro (fixo) para as coisas que você estima. No seu exemplo, a pergunta seria se a inferência pressupõe que o sistema dinâmico tenha um estado verdadeiro a cada momento.
Florian Hartig
2

As páginas 3 e 4 da BDA de Gelman et al., 3ª ed., São esclarecedoras. A estatística bayesiana visa deduzir dados usando modelos de probabilidade para quantidades observáveis ​​e não observáveis. Nós nos referimos às quantidades não observáveis ​​como parâmetros, mesmo que nem sempre a distinção seja clara. Nas estatísticas bayesianas, toda a incerteza sobre as variáveis ​​envolvidas no modelo é representada usando probabilidade. Portanto, precisamos configurar um modelo de probabilidade completo, ou seja, uma probabilidade conjunta entre todosvariáveis ​​envolvidas em nosso problema, tanto observáveis ​​quanto inobserváveis, isto é, parâmetros. Isso significa que usamos variáveis ​​aleatórias para representar ambos. Isso não significa que acreditamos que o parâmetro seja aleatório: significa simplesmente que nosso conhecimento do valor real dos parâmetros é limitado e representamos o conhecimento limitado que temos antes de observar os dados através da distribuição de probabilidade anterior. Em seguida, observamos dados e condições nos dados observados usando um modelo para o processo de geração de dados (que dá origem a uma certa função de probabilidade) e a regra de Bayes, para obter uma distribuição de probabilidade posterior, que quantifica a incerteza restante em nosso conhecimento sobre o quantidades não observáveis.

Em outras palavras, usamos variáveis ​​aleatórias para parâmetros não porque acreditamos que não existem parâmetros verdadeiros, mas porque temos um conhecimento limitado deles, o que melhora após a observação dos dados para as variáveis ​​mensuráveis, mas não desaparece completamente. De fato, existem condições técnicas sob as quais a distribuição posterior tende a um delta de Dirac (portanto, a variável aleatória usada para representar o parâmetro se torna degenerada) no limite do número de observações que vai para 0. Se não houver valor "true" para o parâmetro, isso não faria muito sentido. Agora, certamente essas condições nem sempre são válidas, mas em muitas análises bayesianas padrão (mesmo que nem todas) não duvidamos da existência de um modelo verdadeiro e de valores verdadeiros ou fixos para os não observáveis.

DeltaIV
fonte
1
portanto, para pessoas com essa interpretação de bayesiano (ou seja, existe um modelo verdadeiro, somos apenas ignorantes), parece que o processo de geração de dados deve ser o mesmo que o normal, ou seja, os parâmetros verdadeiros geram os dados (x, y) e é isso?
Pinóquio
1
absolutamente sim. Como escrevi acima, e como o @FlorianHartig discutiu em detalhes, o processo de geração de dados define a função de probabilidade e a função de probabilidade é definida da mesma maneira nos dois paradigmas.
DeltaIV
1

Essa é a maneira padrão de interpretar o processo de geração de dados na estrutura bayesiana?

Não, essa não é a interpretação padrão. De fato, você já reconheceu em sua pergunta a interpretação "subjetiva" da probabilidade , que é a base padrão das estatísticas bayesianas. Sob a interpretação "subjetivista" (mais apropriadamente chamada de interpretação "epistêmica"), as distribuições de probabilidade anteriores e posteriores para os parâmetros são usadas para representar a incerteza do usuário sobre os parâmetros desconhecidos no modelo. Sob esse relato, não há suposição de que qualquer processo metafísico correspondente ocorra na natureza ou qualquer aleatoriedade na natureza. De fato, sob essa visão, o paradigma bayesiano não fornece nenhuma teoriano "processo de geração de dados" da natureza; apenas nos fornece uma maneira matemática de modelar nossa incerteza sobre as coisas da natureza e, portanto, formar uma teoria inferencial e preditiva .

Sua última descrição é um exemplo da teoria da propensão da probabilidade , que postula que existe um processo metafísico na natureza que é análogo ao cálculo da probabilidade. Essa interpretação da probabilidade pressupõe que exista alguma "propensão" metafísica inerente à natureza para que os resultados ocorram aleatoriamente, de acordo com as leis da probabilidade. Como na maioria dos bayesianos, sempre achei as contas de propensão um pouco tolas. É realmente um exemplo da propensão dos seres humanos a projetar nossos próprios modos de pensar na natureza e assumir que existem análogos na natureza de nossos métodos e construções epistemológicos. (Como tal, a "interpretação da propensão" é mais uma teoria da propensão dos seres humanos do que uma das probabilidades!)

Agora, você pode decidir adotar a interpretação subjetivista da probabilidade ou pode discordar de mim e decidir adotar a interpretação da propensão. Independentemente disso, você vai se meter em uma confusão terrível se equivocar entre essas duas interpretações diferentes. Provavelmente é isso que está lhe dando dificuldades no momento.

Ben - Restabelecer Monica
fonte
-1

O parâmetro só pode ser considerado fixo, mas desconhecido, se você assumir que o modelo subjacente com o qual está trabalhando é uma representação perfeita do sistema verdadeiro. No entanto, como a natureza é geralmente muito mais complexa do que qualquer modelo matemático que usamos, essa suposição não pode ser feita. Portanto, não há um parâmetro 'one true fixed' do seu modelo.θ

Matematicamente, à medida que você adiciona mais e mais dados, converge para um determinado parâmetro . No entanto, isso ocorre devido à insuficiência de suas suposições no processo de modelagem. Você deve ter o cuidado de chamá-lo de verdadeiro parâmetro fixo do sistema subjacente. Mesmo se um parâmetro no seu modelo tiver um significado físico - é apenas uma suposição de que o parâmetro posterior retém essa interpretação completamente.θ

Os dados em uma visão bayesiana são gerados pelo 'sistema verdadeiro' - que você nunca poderá modelar corretamente. Portanto, um parâmetro verdadeiro subjacente do seu modelo assumido não pode existir.

Summit
fonte
5
Discordo da interpretação acima: uma análise bayesiana padrão não coloca incerteza na adequação do modelo. A distribuição anterior representa incerteza nas informações disponíveis no parâmetro. Isso não significa que não há parâmetro de valor fixo ou parâmetro verdadeiro.
Xian
@ Xi'an: Como você disse, uma análise bayesiana padrão não coloca incerteza sobre a adequação do modelo: o modelo probabilístico representa nossas crenças anteriores - se são apropriadas ou não é uma questão diferente. No entanto, quem pode afirmar que seu modelo é realmente capaz de representar perfeitamente o verdadeiro sistema subjacente? Se esse link estiver ausente, você pode acabar com um parâmetro fixo. MAS NÃO é o 'parâmetro verdadeiro' - se você definir o 'parâmetro verdadeiro' como aquele que realmente gerou os dados.
Summit