Lista de situações em que uma abordagem bayesiana é mais simples, mais prática ou mais conveniente

63

Houve muitos debates nas estatísticas entre bayesianos e freqüentadores. Geralmente, acho essas coisas desanimadoras (embora eu ache que tudo acabou). Por outro lado, conheci várias pessoas que adotam uma visão totalmente pragmática da questão, dizendo que, às vezes, é mais conveniente realizar uma análise freqüentista e, às vezes, é mais fácil executar uma análise bayesiana. Acho essa perspectiva prática e refrescante.

Ocorre-me que seria útil ter uma lista desses casos. Porque há muitas análises estatísticas e porque eu suponho que seja normalmente mais prático realizar uma análise freqüentista (a codificação de um teste t no WinBUGS é consideravelmente mais envolvida do que a chamada de função única necessária para executar a versão baseada em freqüentadores em R , por exemplo), seria bom ter uma lista das situações em que uma abordagem bayesiana é mais simples, mais prática e / ou mais conveniente do que uma abordagem freqüentista.


(Duas respostas pelas quais não tenho interesse são: 'sempre' e 'nunca'. Entendo que as pessoas têm opiniões fortes, mas não as exponha aqui. Se esse tópico se tornar um local para discussões mesquinhas, provavelmente vou excluir Meu objetivo aqui é desenvolver um recurso que seja útil para um analista com um trabalho, e não um machado para moer.)

As pessoas podem sugerir mais de um caso, mas, por favor, use respostas separadas para que cada situação possa ser avaliada (votada / discutida) individualmente. As respostas devem listar: (1) qual é a natureza da situação e (2) por que a abordagem bayesiana é mais simples nesse caso. Algum código (digamos, no WinBUGS) demonstrando como a análise seria feita e por que a versão bayesiana é mais prática seria o ideal, mas espero que seja muito complicado. Se isso puder ser feito com facilidade, eu apreciaria, mas inclua o motivo .

Por fim, reconheço que não defini o que significa uma abordagem ser "mais simples" do que outra. A verdade é que não tenho muita certeza do que deveria significar que uma abordagem seja mais prática que a outra. Estou aberto a sugestões diferentes, basta especificar sua interpretação quando você explicar por que uma análise bayesiana é mais conveniente na situação que você discute.

- Reinstate Monica
fonte
7
A modelagem multinível é definitivamente mais fácil para bayesiana, especialmente conceitualmente.
probabilityislogic
O interlocutor pode não gostar disso, mas não há como pensar e entender o que os métodos de inferência ou modelagem estão realmente fazendo e como interpretá-los. Não faz sentido procurar o que é mais simples quando eles estão alcançando objetivos diferentes.
11
Estou bem com o conselho de pensar claramente sobre o que você está tentando fazer e como as análises funcionam, @Mayo. Eu mesmo dei esse conselho ;-). Também estou familiarizado com a idéia de que análises bayesianas e freqüentistas fazem suposições diferentes sobre a natureza da probabilidade. No entanto, como observo na pergunta, conheci várias pessoas (isto é, doutorandos em estatística que compreendem muito bem as questões) que dizem que há momentos em que são suficientemente semelhantes e que 1 é mais conveniente. As outras respostas demonstram que é possível dar tais exemplos. Gostaria muito de ver outros casos que você conhece.
gung - Restabelece Monica
Apenas curioso - quando você diz "a análise frequentista é mais prática", você está falando sobre o software - como usar o lm ()R é mais fácil de usar? Ou há algo mais?
probabilityislogic
@probabilityislogic, essencialmente. Meu exemplo é usar t.test()ao invés de codificar um teste t bayesiano no WinBUGS, o que requer muito mais código. Talvez em vez de "mais prático", eu devesse ter dito "mais fácil".
gung - Restabelece Monica

Respostas:

26

(1) Em contextos em que a função de verossimilhança é intratável (pelo menos numericamente), o uso da abordagem bayesiana, por meio da Computação Bayesiana Aproximada (ABC), ganhou espaço sobre alguns concorrentes freqüentadores, como as verossimilhanças compostas ( 1 , 2 ) ou a probabilidade empírica porque tende a ser mais fácil de implementar (não necessariamente correta). Devido a isso, o uso do ABC tornou-se popular em áreas onde é comum encontrar probabilidades intratáveis, como biologia , genética e ecologia . Aqui, poderíamos mencionar um oceano de exemplos.

Alguns exemplos de probabilidades intratáveis ​​são

  • Processos sobrepostos. Cox e Smith (1954) propuseram um modelo no contexto da neurofisiologia que consiste em processos de ponto superposto dePor exemplo, considere os tempos entre os pulsos elétricos observados em alguma parte do cérebro que foram emitidos por vários neurônios durante um determinado período. Esta amostra contém observações não-IID, o que dificulta a construção da probabilidade correspondente, complicando a estimativa dos parâmetros correspondentes. Uma solução frequentista (parcial) foi recentemente proposta neste artigo . A implementação da abordagem ABC também foi recentemente estudada e pode ser encontrada aqui .N

  • A genética populacional é outro exemplo de modelo que leva a probabilidades intratáveis. Nesse caso, a intratabilidade tem uma natureza diferente: a probabilidade é expressa em termos de uma integral multidimensional (às vezes da dimensão ) que levaria algumas décadas apenas para avaliá-la em um único ponto. Esta área é provavelmente a sede da ABC.1000+

user10525
fonte
11
Estes são ótimos! Você pode dividi-los em duas respostas (para que eu possa te votar duas vezes ;-) e fornecer apenas um exemplo típico (de brinquedo)? Obrigado.
gung - Restabelece Monica
2
@ Procrastinator Você poderia explicar um pouco porque, em alguns contextos, a probabilidade é intratável. Dado que você menciona biologia, genética e ecologia, imagino que esteja ligado às complexas dependências entre parâmetros. Eu acho que isso seria particularmente útil para pessoas que não estão familiarizadas com a análise bayesiana (das quais eu sou), especialmente considerando que a página da wikipedia no ABC à qual você vincula não fornece muito contexto. Obrigado
Antoine Vernet
15

À medida que o software bayesiano melhora, o problema "mais fácil de aplicar" se torna discutível. O software bayesiano está sendo empacotado de formas cada vez mais fáceis. Um caso recente em questão é de um artigo intitulado Estimativa Bayesiana substitui o teste t . O site a seguir fornece links para o artigo e o software: http://www.indiana.edu/~kruschke/BEST/

Um trecho da introdução do artigo:

... algumas pessoas têm a impressão de que as conclusões dos métodos NHST e Bayesiano tendem a concordar em situações simples, como a comparação de dois grupos: , realmente não há necessidade de tentar aplicar todo o maquinário bayesiano a um problema tão simples ”(Brooks, 2003, p. 2694). Este artigo mostra, ao contrário, que a estimativa de parâmetros bayesianos fornece informações muito mais ricas que o teste t do NHST e que suas conclusões podem diferir das do teste t do NHST. As decisões baseadas na estimativa de parâmetros bayesianos são mais bem fundamentadas do que as baseadas no NHST, independentemente de as decisões derivadas pelos dois métodos serem concordantes ou não.

John K. Kruschke
fonte
10
Acho que sua resposta é sempre ou 'será sempre em breve'. Esta é a resposta de um partidário bayesiano.
gung - Restabelece Monica
3
E aqui está uma implementação javascript on-line do BEST de Kruschke. Análise bayesiana no navegador :) sumsar.net/best_online
Rasmus Bååth
13

(2) modelos de resistência ao estresse. O uso de modelos de resistência ao estresse é popular em confiabilidade. A idéia básica consiste em estimar o parâmetro onde e são variáveis ​​aleatórias. Curiosamente, o cálculo da probabilidade de perfil desse parâmetro é bastante difícil em geral (mesmo numericamente), exceto em alguns exemplos de brinquedos, como o caso exponencial ou normal. Por esse motivo, soluções ad hoc freqüentistas precisam ser consideradas, como a probabilidade empírica ( consulteθ=P(X<Y)XY) ou intervalos de confiança cuja construção é difícil também em uma estrutura geral. Por outro lado, o uso de uma abordagem bayesiana é muito simples, pois se você tiver uma amostra da distribuição posterior dos parâmetros das distribuições de e , poderá transformá-los facilmente em uma amostra da parte posterior de .XYθ

Seja uma variável aleatória com densidade e distribuição dadas respectivamente por e . Da mesma forma, seja uma variável aleatória com densidade e distribuição dadas respectivamente por e . EntãoXf(x;ξ1)F(x;ξ1)Yg(y;ξ2)G(y;ξ2)

()θ=F(y;ξ1)g(y;ξ2)dy.

Observe que este parâmetro é uma função dos parâmetros . Nos casos exponencial e normal, isso pode ser expresso em forma fechada ( consulte ), mas esse não é o caso em geral (consulte este artigo como exemplo). Isso complica o cálculo da probabilidade do perfil de e, consequentemente, a inferência clássica do intervalo nesse parâmetro. O principal problema pode ser resumido da seguinte forma "O parâmetro de interesse é uma função desconhecida / complicada dos parâmetros do modelo e, portanto, não podemos encontrar uma reparameterização que envolva o parâmetro de interesse".θ(ξ1,ξ2)θ

De uma perspectiva bayesiana, isso não é um problema, uma vez que, se tivermos uma amostra da distribuição posterior de , poderemos simplesmente inserir essas amostras em para obter uma amostra da parte posterior. de e forneça inferência de intervalo para este parâmetro.( ) θ(ξ1,ξ2)()θ

user10525
fonte
4
+1 nas duas respostas - esses são exemplos interessantes. Parece que você supõe que a solução freqüentista deve ser baseada em probabilidade, aparentemente ignorando métodos não paramétricos. Nesse caso em particular, os métodos freqüentes não paramétricos do capítulo 5 do livro aos quais você vinculou me parecem pelo menos tão fáceis de usar quanto os métodos bayesianos.
MånsT
@ MånsT Bom ponto. De fato, essa resposta se concentra na inferência bayesiana versus baseada na probabilidade. Escrevi uma resposta há algum tempo sobre uma solução não paramétrica desse problema que, como você aponta, é tão fácil quanto a abordagem bayesiana.
@ MånsT & Procrastinator, eu também tinha votado nisso. Não está claro para mim o que "mais fácil" deve significar no contexto desta pergunta / dos comentários feitos a mim ao longo dos anos que a levaram. Principalmente, queria excluir respostas nas quais o analista tem uma posição teórica tal que uma sempre é melhor por razões não relacionadas à situação. Essa posição é defensável, é claro, e há muitos lugares na internet para ver tais argumentos (incluindo alguns no CV), mas por causa disso eu pensei que seria interessante ter um lugar onde as pessoas listem casos em que eles usaria o outro e por quê.
gung - Reinstate Monica
13

Sou treinado em estatística freqüentista (econometria, na verdade), mas nunca tive uma postura de confronto em relação à abordagem bayesiana, pois meu ponto de vista é que a fonte filosófica dessa batalha "épica" estava fundamentalmente equivocada desde o início. minhas opiniões aqui ). Na verdade, pretendo me treinar também na abordagem bayesiana no futuro imediato.

Por quê? Como um dos aspectos da estatística freqüentista que mais me fascina como empreendimento matemático e conceitual, ao mesmo tempo, me incomoda mais: os assintóticos do tamanho da amostra. Pelo menos em econometria, quase nenhumaUm artigo sério hoje afirma que qualquer um dos vários estimadores geralmente aplicados na econometria freqüentista possui qualquer uma das propriedades desejáveis ​​de "pequena amostra" que desejaríamos de um estimador. Todos eles contam com propriedades assintóticas para justificar seu uso. A maioria dos testes utilizados possui propriedades desejáveis ​​apenas assintoticamente ... Mas não estamos mais em "terra-z / terra-t": todo o aparato sofisticado (e formidável) da estimativa e inferência freqüentista moderna também é altamente idiossincrático - o que significa às vezes, uma amostra grande é realmente necessária para que essas preciosas propriedades assintóticas surjam e afetem favoravelmente as estimativas derivadas dos estimadores, como foi comprovado por várias simulações. Significando dezenas de milhares de observações - que, embora elas comecem a se tornar disponíveis para alguns campos da atividade econômica (como mercados de trabalho ou financeiros), existem outras (como macroeconomia) nas quais elas nunca farão (pelo menos durante minha vida útil). E estou bastante incomodado com isso, porque torna os resultados derivados realmenteincerto (não apenas estocástico).

A econometria bayesiana para amostras pequenas não depende de resultados assintóticos. "Mas eles confiam no prior subjetivo !" é a resposta usual ... à qual, minha resposta simples e prática é a seguinte: "se o fenômeno é antigo e estudado antes, o prior pode ser estimado a partir de dados passados. Se o fenômeno é novo , pelo que mais, se não por argumentos subjetivos, podemos começar a discussão sobre isso ?

Alecos Papadopoulos
fonte
5
Essa é uma perspectiva interessante, mas observe que existem abordagens freqüentes que não dependem tanto de assintóticos, como simulações de Monte Carlo, bootstrapping e testes de permutação.
gung - Restabelece Monica
11
E se alguém tentar obter o melhor dos dois mundos? Uma tentativa: Bartels, Christian (2017): Usando conhecimentos prévios em testes freqüentistas. compartilhamento de figo. doi.org/10.6084/m9.figshare.4819597.v3 Recuperado: 17 18, 10 de maio de 2017 (GMT)
user36160
13

Esta é uma resposta tardia, no entanto, espero que acrescente algo. Fui treinado em telecomunicações, onde na maioria das vezes usamos a abordagem bayesiana.

Aqui está um exemplo simples: suponha que você possa transmitir quatro sinais possíveis de +5, +2,5, -2,5 e -5 volts. Um dos sinais deste conjunto é transmitido, mas o sinal é corrompido pelo ruído gaussiano no momento em que atinge o fim de recebimento. Na prática, o sinal também é atenuado, mas abandonaremos esse problema por simplicidade. A pergunta é: se você está na extremidade receptora, como você projeta um detector que diz qual desses sinais foi originalmente transmitido?

Esse problema obviamente está no domínio do teste de hipóteses. No entanto, você não pode usar valores-p, pois o teste de significância pode potencialmente rejeitar todas as quatro hipóteses possíveis e você sabe que um desses sinais foi realmente transmitido. Podemos usar o método Neyman-Pearson para projetar um detector em princípio, mas esse método funciona melhor para hipóteses binárias. Para várias hipóteses, fica muito desajeitado quando você precisa lidar com restrições de número para obter probabilidades de falso alarme. Uma alternativa simples é dada pelo teste de hipótese bayesiana. Qualquer um desses sinais poderia ter sido escolhido para ser transmitido, portanto o anterior é equiprobável. Nesses casos equiprobáveis, o método se resume a escolher o sinal com a máxima probabilidade. Este método pode receber uma boa interpretação geométrica: escolha o sinal que estiver mais próximo do sinal recebido. Isso também leva à partição do espaço de decisão em várias regiões de decisão, de modo que, se o sinal recebido cair dentro de uma região específica, é decidido que a hipótese associada a essa região de decisão é verdadeira. Assim, o design de um detector é facilitado.

Jyaure
fonte
4
Obrigado por compartilhar sua experiência conosco. Bem vindo ao nosso site!
whuber
4

Os chamados testes estatísticos "freqüentistas" são tipicamente equivalentes à abordagem bayesiana, em princípio mais complexa, sob certas suposições. Quando essas premissas são aplicáveis, qualquer uma das abordagens fornecerá o mesmo resultado; portanto, é seguro usar o teste Frequentist mais fácil de aplicar. A abordagem bayesiana é mais segura em geral porque torna explícitas as suposições, mas se você souber o que está fazendo, o teste Frequentist geralmente é tão bom quanto uma abordagem bayesiana e geralmente mais fácil de aplicar.

Bogdanovist
fonte
11
Obrigado. Você observa que os testes freqüentistas são "normalmente mais fáceis de aplicar". Você conhece uma situação específica quando esse não é o caso (se F é apenas "normalmente" mais fácil, deve haver alguns desses casos). No momento, podemos deixar de lado questões cuja abordagem seria "mais segura" e apenas nos concentrar na parte mais fácil de aplicar .
gung - Restabelece Monica
4

(Tentarei o que achei que seria o tipo mais típico de resposta.)

Digamos que você tenha uma situação em que haja várias variáveis ​​e uma resposta, e você saiba bastante sobre como uma das variáveis ​​deve estar relacionada à resposta, mas não tanto quanto as outras.

Em uma situação como essa, se você executasse uma análise de regressão múltipla padrão, esse conhecimento prévio não seria levado em consideração. Uma meta-análise pode ser realizada posteriormente, o que pode ser interessante para esclarecer se o resultado atual foi consistente com os outros resultados e pode permitir uma estimativa um pouco mais precisa (incluindo o conhecimento prévio nesse momento). Mas essa abordagem não permitiria que o que se sabia sobre essa variável influenciasse as estimativas das outras variáveis.

Outra opção é que seria possível codificar e otimizar sua própria função que corrige o relacionamento com a variável em questão e localiza valores de parâmetro para as outras variáveis ​​que maximizam a probabilidade dos dados, dada essa restrição. O problema aqui é que, embora a primeira opção não restrinja adequadamente a estimativa beta, essa abordagem a restringe demais.

Pode ser possível criar um júri com algum algoritmo que abordaria a situação de maneira mais apropriada; situações como essa parecem candidatos ideais à análise bayesiana. Qualquer um que não se oponha dogmaticamente à abordagem bayesiana deveria estar disposto a tentar em casos como esse.

- Reinstate Monica
fonte
2

Uma área de pesquisa na qual os métodos bayesianos são extremamente diretos e os métodos freqüentistas são extremamente difíceis de seguir é o design ótimo .

Em uma versão simples do problema, você gostaria de estimar um único coeficiente de regressão de uma regressão logística da maneira mais eficiente possível. Você pode coletar uma única amostra com igual ao desejado , atualize sua estimativa para e, em seguida, escolha seu próximo etc. até sua estimativa para atende a algum nível de precisão. β x ( 2 ) βx(1)βx(2)β

A parte complicada é que o verdadeiro valor de ditará qual é a melhor escolha de . Você pode considerar usar a estimativa atual de de com o entendimento de que está ignorando o erro em . Dessa forma, você pode obter uma escolha talvez ligeiramente menos otimizada de com uma estimativa razoável de .x ( i ) β β β x ( i ) ββx(i)β^ββ^x(i)β

Mas e quando você começa? Você não tem uma estimativa frequente de , porque não possui dados . Portanto, você precisará coletar alguns dados (definitivamente de uma maneira muito abaixo do ideal), sem muita teoria orientadora para dizer o que escolher. E mesmo depois de algumas escolhas, o efeito Hauck-Donner ainda pode impedir que você tenha uma estimativa definida de . Se você ler a literatura freqüentista sobre como lidar com isso, é basicamente "escolher aleatoriamente 's até que exista um valor de tal que haja zeros e zeros acima e abaixo desse ponto" (o que significa Hauck-Donner efeito não ocorrerá).β x xββxx

Da perspectiva bayesiana, esse problema é muito fácil.

  1. Comece sua crença anterior sobre .β
  2. Encontre o que terá o efeito máximo na distribuição posteriorx
  3. Faça uma amostra usando o valor de escolhido entre (2) e atualize suax
  4. Repita as etapas 2 e 3 até que a precisão desejada seja alcançada

A literatura freqüentista se inclina para trás para tentar encontrar valores razoáveis ​​de para os quais é possível colher amostras e evitar o efeito Hauck-Donner, para que você possa começar a tirar amostras abaixo do ideal ... enquanto o método bayesiano é tudo muito fácil e leva em consideração a incerteza no parâmetro de interesse.x

Cliff AB
fonte
2

Talvez um dos casos mais diretos e comuns em que a abordagem bayesiana seja mais fácil seja a quantificação da incerteza dos parâmetros.

Nesta resposta, não estou me referindo à interpretação de intervalos de confiança versus intervalos credíveis. Por enquanto, vamos supor que um usuário esteja bem com o uso de qualquer método.

Dito isto, no quadro bayesiano, é direto; é a variação marginal do posterior para qualquer parâmetro individual de interesse. Supondo que você possa coletar amostras a partir do posterior, basta coletar suas amostras e calcular suas variações. Feito!

No caso Frequentist, isso geralmente é apenas direto em alguns casos e é uma verdadeira dor quando não é. Se tivermos um grande número de amostras versus um pequeno número de parâmetros (e quem realmente sabe quão grande é o suficiente), podemos usar a teoria do MLE para derivar ICs. No entanto, esses critérios nem sempre são válidos, especialmente para casos interessantes (ou seja, modelos de efeitos mistos). Às vezes, podemos usar o bootstrapping, mas às vezes não podemos! Nos casos em que não podemos, pode ser muito, muito difícil derivar estimativas de erro e geralmente exigem um pouco de inteligência (isto é, a fórmula de Greenwood para derivar SE para curvas de Kaplan Meier). "Usar alguma inteligência" nem sempre é uma receita confiável!

Cliff AB
fonte