Houve muitos debates nas estatísticas entre bayesianos e freqüentadores. Geralmente, acho essas coisas desanimadoras (embora eu ache que tudo acabou). Por outro lado, conheci várias pessoas que adotam uma visão totalmente pragmática da questão, dizendo que, às vezes, é mais conveniente realizar uma análise freqüentista e, às vezes, é mais fácil executar uma análise bayesiana. Acho essa perspectiva prática e refrescante.
Ocorre-me que seria útil ter uma lista desses casos. Porque há muitas análises estatísticas e porque eu suponho que seja normalmente mais prático realizar uma análise freqüentista (a codificação de um teste t no WinBUGS é consideravelmente mais envolvida do que a chamada de função única necessária para executar a versão baseada em freqüentadores em R , por exemplo), seria bom ter uma lista das situações em que uma abordagem bayesiana é mais simples, mais prática e / ou mais conveniente do que uma abordagem freqüentista.
(Duas respostas pelas quais não tenho interesse são: 'sempre' e 'nunca'. Entendo que as pessoas têm opiniões fortes, mas não as exponha aqui. Se esse tópico se tornar um local para discussões mesquinhas, provavelmente vou excluir Meu objetivo aqui é desenvolver um recurso que seja útil para um analista com um trabalho, e não um machado para moer.)
As pessoas podem sugerir mais de um caso, mas, por favor, use respostas separadas para que cada situação possa ser avaliada (votada / discutida) individualmente. As respostas devem listar: (1) qual é a natureza da situação e (2) por que a abordagem bayesiana é mais simples nesse caso. Algum código (digamos, no WinBUGS) demonstrando como a análise seria feita e por que a versão bayesiana é mais prática seria o ideal, mas espero que seja muito complicado. Se isso puder ser feito com facilidade, eu apreciaria, mas inclua o motivo .
Por fim, reconheço que não defini o que significa uma abordagem ser "mais simples" do que outra. A verdade é que não tenho muita certeza do que deveria significar que uma abordagem seja mais prática que a outra. Estou aberto a sugestões diferentes, basta especificar sua interpretação quando você explicar por que uma análise bayesiana é mais conveniente na situação que você discute.
fonte
lm ()
R é mais fácil de usar? Ou há algo mais?t.test()
ao invés de codificar um teste t bayesiano no WinBUGS, o que requer muito mais código. Talvez em vez de "mais prático", eu devesse ter dito "mais fácil".Respostas:
(1) Em contextos em que a função de verossimilhança é intratável (pelo menos numericamente), o uso da abordagem bayesiana, por meio da Computação Bayesiana Aproximada (ABC), ganhou espaço sobre alguns concorrentes freqüentadores, como as verossimilhanças compostas ( 1 , 2 ) ou a probabilidade empírica porque tende a ser mais fácil de implementar (não necessariamente correta). Devido a isso, o uso do ABC tornou-se popular em áreas onde é comum encontrar probabilidades intratáveis, como biologia , genética e ecologia . Aqui, poderíamos mencionar um oceano de exemplos.
Alguns exemplos de probabilidades intratáveis são
Processos sobrepostos. Cox e Smith (1954) propuseram um modelo no contexto da neurofisiologia que consiste em processos de ponto superposto dePor exemplo, considere os tempos entre os pulsos elétricos observados em alguma parte do cérebro que foram emitidos por vários neurônios durante um determinado período. Esta amostra contém observações não-IID, o que dificulta a construção da probabilidade correspondente, complicando a estimativa dos parâmetros correspondentes. Uma solução frequentista (parcial) foi recentemente proposta neste artigo . A implementação da abordagem ABC também foi recentemente estudada e pode ser encontrada aqui .N
A genética populacional é outro exemplo de modelo que leva a probabilidades intratáveis. Nesse caso, a intratabilidade tem uma natureza diferente: a probabilidade é expressa em termos de uma integral multidimensional (às vezes da dimensão ) que levaria algumas décadas apenas para avaliá-la em um único ponto. Esta área é provavelmente a sede da ABC.1000+
fonte
À medida que o software bayesiano melhora, o problema "mais fácil de aplicar" se torna discutível. O software bayesiano está sendo empacotado de formas cada vez mais fáceis. Um caso recente em questão é de um artigo intitulado Estimativa Bayesiana substitui o teste t . O site a seguir fornece links para o artigo e o software: http://www.indiana.edu/~kruschke/BEST/
Um trecho da introdução do artigo:
fonte
(2) modelos de resistência ao estresse. O uso de modelos de resistência ao estresse é popular em confiabilidade. A idéia básica consiste em estimar o parâmetro onde e são variáveis aleatórias. Curiosamente, o cálculo da probabilidade de perfil desse parâmetro é bastante difícil em geral (mesmo numericamente), exceto em alguns exemplos de brinquedos, como o caso exponencial ou normal. Por esse motivo, soluções ad hoc freqüentistas precisam ser consideradas, como a probabilidade empírica ( consulteθ=P(X<Y) X Y ) ou intervalos de confiança cuja construção é difícil também em uma estrutura geral. Por outro lado, o uso de uma abordagem bayesiana é muito simples, pois se você tiver uma amostra da distribuição posterior dos parâmetros das distribuições de e , poderá transformá-los facilmente em uma amostra da parte posterior de .X Y θ
Seja uma variável aleatória com densidade e distribuição dadas respectivamente por e . Da mesma forma, seja uma variável aleatória com densidade e distribuição dadas respectivamente por e . EntãoX f(x;ξ1) F(x;ξ1) Y g(y;ξ2) G(y;ξ2)
Observe que este parâmetro é uma função dos parâmetros . Nos casos exponencial e normal, isso pode ser expresso em forma fechada ( consulte ), mas esse não é o caso em geral (consulte este artigo como exemplo). Isso complica o cálculo da probabilidade do perfil de e, consequentemente, a inferência clássica do intervalo nesse parâmetro. O principal problema pode ser resumido da seguinte forma "O parâmetro de interesse é uma função desconhecida / complicada dos parâmetros do modelo e, portanto, não podemos encontrar uma reparameterização que envolva o parâmetro de interesse".θ(ξ1,ξ2) θ
De uma perspectiva bayesiana, isso não é um problema, uma vez que, se tivermos uma amostra da distribuição posterior de , poderemos simplesmente inserir essas amostras em para obter uma amostra da parte posterior. de e forneça inferência de intervalo para este parâmetro.( ⋆ ) θ(ξ1,ξ2) (⋆) θ
fonte
Sou treinado em estatística freqüentista (econometria, na verdade), mas nunca tive uma postura de confronto em relação à abordagem bayesiana, pois meu ponto de vista é que a fonte filosófica dessa batalha "épica" estava fundamentalmente equivocada desde o início. minhas opiniões aqui ). Na verdade, pretendo me treinar também na abordagem bayesiana no futuro imediato.
Por quê? Como um dos aspectos da estatística freqüentista que mais me fascina como empreendimento matemático e conceitual, ao mesmo tempo, me incomoda mais: os assintóticos do tamanho da amostra. Pelo menos em econometria, quase nenhumaUm artigo sério hoje afirma que qualquer um dos vários estimadores geralmente aplicados na econometria freqüentista possui qualquer uma das propriedades desejáveis de "pequena amostra" que desejaríamos de um estimador. Todos eles contam com propriedades assintóticas para justificar seu uso. A maioria dos testes utilizados possui propriedades desejáveis apenas assintoticamente ... Mas não estamos mais em "terra-z / terra-t": todo o aparato sofisticado (e formidável) da estimativa e inferência freqüentista moderna também é altamente idiossincrático - o que significa às vezes, uma amostra grande é realmente necessária para que essas preciosas propriedades assintóticas surjam e afetem favoravelmente as estimativas derivadas dos estimadores, como foi comprovado por várias simulações. Significando dezenas de milhares de observações - que, embora elas comecem a se tornar disponíveis para alguns campos da atividade econômica (como mercados de trabalho ou financeiros), existem outras (como macroeconomia) nas quais elas nunca farão (pelo menos durante minha vida útil). E estou bastante incomodado com isso, porque torna os resultados derivados realmenteincerto (não apenas estocástico).
A econometria bayesiana para amostras pequenas não depende de resultados assintóticos. "Mas eles confiam no prior subjetivo !" é a resposta usual ... à qual, minha resposta simples e prática é a seguinte: "se o fenômeno é antigo e estudado antes, o prior pode ser estimado a partir de dados passados. Se o fenômeno é novo , pelo que mais, se não por argumentos subjetivos, podemos começar a discussão sobre isso ?
fonte
Esta é uma resposta tardia, no entanto, espero que acrescente algo. Fui treinado em telecomunicações, onde na maioria das vezes usamos a abordagem bayesiana.
Aqui está um exemplo simples: suponha que você possa transmitir quatro sinais possíveis de +5, +2,5, -2,5 e -5 volts. Um dos sinais deste conjunto é transmitido, mas o sinal é corrompido pelo ruído gaussiano no momento em que atinge o fim de recebimento. Na prática, o sinal também é atenuado, mas abandonaremos esse problema por simplicidade. A pergunta é: se você está na extremidade receptora, como você projeta um detector que diz qual desses sinais foi originalmente transmitido?
Esse problema obviamente está no domínio do teste de hipóteses. No entanto, você não pode usar valores-p, pois o teste de significância pode potencialmente rejeitar todas as quatro hipóteses possíveis e você sabe que um desses sinais foi realmente transmitido. Podemos usar o método Neyman-Pearson para projetar um detector em princípio, mas esse método funciona melhor para hipóteses binárias. Para várias hipóteses, fica muito desajeitado quando você precisa lidar com restrições de número para obter probabilidades de falso alarme. Uma alternativa simples é dada pelo teste de hipótese bayesiana. Qualquer um desses sinais poderia ter sido escolhido para ser transmitido, portanto o anterior é equiprobável. Nesses casos equiprobáveis, o método se resume a escolher o sinal com a máxima probabilidade. Este método pode receber uma boa interpretação geométrica: escolha o sinal que estiver mais próximo do sinal recebido. Isso também leva à partição do espaço de decisão em várias regiões de decisão, de modo que, se o sinal recebido cair dentro de uma região específica, é decidido que a hipótese associada a essa região de decisão é verdadeira. Assim, o design de um detector é facilitado.
fonte
Os chamados testes estatísticos "freqüentistas" são tipicamente equivalentes à abordagem bayesiana, em princípio mais complexa, sob certas suposições. Quando essas premissas são aplicáveis, qualquer uma das abordagens fornecerá o mesmo resultado; portanto, é seguro usar o teste Frequentist mais fácil de aplicar. A abordagem bayesiana é mais segura em geral porque torna explícitas as suposições, mas se você souber o que está fazendo, o teste Frequentist geralmente é tão bom quanto uma abordagem bayesiana e geralmente mais fácil de aplicar.
fonte
(Tentarei o que achei que seria o tipo mais típico de resposta.)
Digamos que você tenha uma situação em que haja várias variáveis e uma resposta, e você saiba bastante sobre como uma das variáveis deve estar relacionada à resposta, mas não tanto quanto as outras.
Em uma situação como essa, se você executasse uma análise de regressão múltipla padrão, esse conhecimento prévio não seria levado em consideração. Uma meta-análise pode ser realizada posteriormente, o que pode ser interessante para esclarecer se o resultado atual foi consistente com os outros resultados e pode permitir uma estimativa um pouco mais precisa (incluindo o conhecimento prévio nesse momento). Mas essa abordagem não permitiria que o que se sabia sobre essa variável influenciasse as estimativas das outras variáveis.
Outra opção é que seria possível codificar e otimizar sua própria função que corrige o relacionamento com a variável em questão e localiza valores de parâmetro para as outras variáveis que maximizam a probabilidade dos dados, dada essa restrição. O problema aqui é que, embora a primeira opção não restrinja adequadamente a estimativa beta, essa abordagem a restringe demais.
Pode ser possível criar um júri com algum algoritmo que abordaria a situação de maneira mais apropriada; situações como essa parecem candidatos ideais à análise bayesiana. Qualquer um que não se oponha dogmaticamente à abordagem bayesiana deveria estar disposto a tentar em casos como esse.
fonte
Uma área de pesquisa na qual os métodos bayesianos são extremamente diretos e os métodos freqüentistas são extremamente difíceis de seguir é o design ótimo .
Em uma versão simples do problema, você gostaria de estimar um único coeficiente de regressão de uma regressão logística da maneira mais eficiente possível. Você pode coletar uma única amostra com igual ao desejado , atualize sua estimativa para e, em seguida, escolha seu próximo etc. até sua estimativa para atende a algum nível de precisão. β x ( 2 ) βx(1) β x(2) β
A parte complicada é que o verdadeiro valor de ditará qual é a melhor escolha de . Você pode considerar usar a estimativa atual de de com o entendimento de que está ignorando o erro em . Dessa forma, você pode obter uma escolha talvez ligeiramente menos otimizada de com uma estimativa razoável de .x ( i ) β β β x ( i ) ββ x(i) β^ β β^ x(i) β
Mas e quando você começa? Você não tem uma estimativa frequente de , porque não possui dados . Portanto, você precisará coletar alguns dados (definitivamente de uma maneira muito abaixo do ideal), sem muita teoria orientadora para dizer o que escolher. E mesmo depois de algumas escolhas, o efeito Hauck-Donner ainda pode impedir que você tenha uma estimativa definida de . Se você ler a literatura freqüentista sobre como lidar com isso, é basicamente "escolher aleatoriamente 's até que exista um valor de tal que haja zeros e zeros acima e abaixo desse ponto" (o que significa Hauck-Donner efeito não ocorrerá).β x xβ β x x
Da perspectiva bayesiana, esse problema é muito fácil.
A literatura freqüentista se inclina para trás para tentar encontrar valores razoáveis de para os quais é possível colher amostras e evitar o efeito Hauck-Donner, para que você possa começar a tirar amostras abaixo do ideal ... enquanto o método bayesiano é tudo muito fácil e leva em consideração a incerteza no parâmetro de interesse.x
fonte
Talvez um dos casos mais diretos e comuns em que a abordagem bayesiana seja mais fácil seja a quantificação da incerteza dos parâmetros.
Nesta resposta, não estou me referindo à interpretação de intervalos de confiança versus intervalos credíveis. Por enquanto, vamos supor que um usuário esteja bem com o uso de qualquer método.
Dito isto, no quadro bayesiano, é direto; é a variação marginal do posterior para qualquer parâmetro individual de interesse. Supondo que você possa coletar amostras a partir do posterior, basta coletar suas amostras e calcular suas variações. Feito!
No caso Frequentist, isso geralmente é apenas direto em alguns casos e é uma verdadeira dor quando não é. Se tivermos um grande número de amostras versus um pequeno número de parâmetros (e quem realmente sabe quão grande é o suficiente), podemos usar a teoria do MLE para derivar ICs. No entanto, esses critérios nem sempre são válidos, especialmente para casos interessantes (ou seja, modelos de efeitos mistos). Às vezes, podemos usar o bootstrapping, mas às vezes não podemos! Nos casos em que não podemos, pode ser muito, muito difícil derivar estimativas de erro e geralmente exigem um pouco de inteligência (isto é, a fórmula de Greenwood para derivar SE para curvas de Kaplan Meier). "Usar alguma inteligência" nem sempre é uma receita confiável!
fonte