Para onde foi o debate freqüentista-bayesiano?

59

O mundo das estatísticas foi dividido entre frequentistas e bayesianos. Hoje em dia, parece que todo mundo faz um pouco de ambos. Como isso pode ser? Se as diferentes abordagens são adequadas para problemas diferentes, por que os pais fundadores da estatística não viram isso? Como alternativa, o debate foi vencido pelos freqüentistas e os verdadeiros bayesianos subjetivos passaram para a teoria da decisão?

JohnRos
fonte
13
Fiz essa CW com a premissa de que é improvável que haja uma resposta autorizada ou melhor. (Sinta-se à vontade para persuadir qualquer um dos mods caso contrário, se você não concordar!) Alguém poderia argumentar por encerrar a questão com base em que ela é potencialmente controversa, mas (IMHO) é sobre tópico e interessante. No entanto, quaisquer respostas contenciosas, polêmicas ou sem suporte, caso apareçam, serão excluídas sem qualquer explicação adicional.
whuber

Respostas:

58

Na verdade, eu discordo levemente da premissa. Todo mundo é bayesiano, se eles realmente têm uma distribuição de probabilidade entregue a eles anteriormente. O problema surge quando eles não acontecem, e acho que ainda há uma divisão de bom tamanho nesse tópico.

Dito isto, porém, concordo que cada vez mais pessoas estão menos inclinadas a lutar guerras sagradas e continuam fazendo o que parece apropriado em qualquer situação.

Eu diria que, à medida que a profissão avançava, os dois lados perceberam que havia méritos nas abordagens do outro lado. Os bayesianos perceberam que avaliar o desempenho dos procedimentos bayesianos se usados ​​repetidamente (por exemplo, esse intervalo de 95% de credibilidade (IC) realmente contém o parâmetro verdadeiro em cerca de 95% das vezes?) Exigia uma perspectiva freqüente. Sem isso, não há calibração desses "95%" para nenhum número do mundo real. Robustez? Construção de modelos através de ajustes iterativos, etc.? Idéias que surgiram no mundo freqüentista e foram adaptadas pelos bayesianos a partir do final dos anos 80, aproximadamente. Os freqüentistas perceberam que a regularização era boa e costumam usá-la hoje em dia - e os anteriores Bayesianos podem ser facilmente interpretados como regularização. Modelagem não paramétrica via splines cúbicos com função de penalidade? Sua penalidade é minha prévia! Agora todos podemos nos dar bem.

A outra grande influência, acredito, é a melhoria impressionante na disponibilidade de software de alta qualidade que permitirá fazer análises rapidamente. Isso vem em duas partes - algoritmos, por exemplo, amostragem de Gibbs e Metropolis-Hastings, e o próprio software, R, SAS, ... Eu poderia ser mais um bayesiano puro se tivesse que escrever todo o meu código em C (eu simplesmente não teria tempo para tentar mais nada), mas, como é, usarei gam no pacote mgcv em R sempre que meu modelo parecer que eu possa encaixá-lo nessa estrutura sem muito esforço, e estou um estatístico melhor para isso. Familiaridade com os métodos do seu oponente e percebendo quanto esforço ele pode economizar / melhor qualidade ele pode fornecer para usá-los em algumas situações, mesmo que eles não se encaixem 100% na sua estrutura padrão para pensar em um problema,

jbowman
fonte
5
@Dikran: Eu concordo, com a ressalva de que eu pessoalmente questionaria a palavra escolha de oponente . :)
cardeal
2
@cardinal Eu não sei, liquidação queridos colegas pode ser divertido; (contanto que você quer saber melhor do que realmente significa que o!)
Dikran Marsupial
3
@Dikran - Obrigado pela compreensão! Eu também não achava que "oponente" era a palavra certa, mas enfiei nela de qualquer maneira, em parte apenas por diversão, e em parte porque não conseguia pensar em uma palavra melhor que ainda preservasse algum senso de oposição.
jbowman
5
@jbowman: Note que as estatísticas bayesianas à la Good, Lindley ou DeFinetti, significam que o anterior é subjetivo / mental e não objetivo / físico. Por esse motivo, eu discordo: "... Todo mundo é bayesiano". É por isso que Robbins teve que usar o termo "Bayes empírico" ao introduzir a idéia "nova" de um prior freqüentador. Concordo, porém, que hoje, o uso de um esquema de amostragem multinível, tendo um antecedente freqüentista, seria suficiente para se qualificar como "estatísticas bayesianas".
JohnRos 9/01/12
2
@ JohnRos - o que eu pensava era mais o clássico "qual é a probabilidade de você ter tuberculose, uma vez que obteve resultados positivos no teste de TB?" situação. (Presumo que) poucos estatísticos freqüentistas se oponham ao uso de qualquer taxa de TB de linha de base apropriada como uma probabilidade anterior e atualizá-la com a probabilidade de teste. Obviamente, eles ainda se oporiam à idéia de serem subjetivos antes, e eu pude ver uma linha de raciocínio do outro lado que alegaria ser subjetivo, apesar dos dados por trás dele, então, ponto a ser considerado (+1).
jbowman
35

Esta é uma pergunta difícil de responder. O número de pessoas que realmente fazem as duas coisas ainda é muito limitado. Os bayesianos do núcleo duro desprezam os usuários das estatísticas principais pelo uso de valores- , uma estatística absurda e inconsistente internamente para os bayesianos; e os estatísticos convencionais simplesmente não conhecem os métodos bayesianos o suficiente para comentar sobre eles. À luz disso, você verá muitas críticas ao teste de significância de hipóteses nulas na literatura bayesiana (variando até quase revistas de biologia pura ou de psicologia pura), com pouca ou nenhuma resposta dos mainstreamers.p

Há manifestações conflitantes sobre "quem venceu o debate" na profissão de estatística. Por um lado, a composição de um departamento de estatística médio é que, na maioria dos lugares, você encontra 10-15 mainstreamers vs. 1-2 bayesianos, embora alguns departamentos sejam puramente bayesianos, sem mainstream, exceto provavelmente para posições de consultoria (Harvard, Duke, Carnegie Mellon, Colúmbia Britânica, Montreal na América do Norte; conheço menos a cena européia). Por outro lado, você verá que em periódicos como JASA ou JRSS, provavelmente 25 a 30% dos artigos são bayesianos. De certa forma, o renascimento bayesiano pode ser algo como a explosão de artigos da ANOVA nos anos 50: naquela época, as pessoas pensavam que praticamente qualquer problema estatístico pode ser enquadrado como um problema da ANOVA; agora mesmo,

Meu sentimento é que as áreas aplicadas não se incomodam em descobrir os detalhes filosóficos e apenas seguem o que for mais fácil de trabalhar. A metodologia bayesiana é muito complicada: além das estatísticas, você também precisa aprender a arte da computação (configurar o amostrador, o bloqueio, o diagnóstico de convergência, o blá-blá-blá) e estar preparado para defender seus priores (se você usar priores objetivos, ou você deve usar priores informativos se o campo tiver se estabelecido praticamente na velocidade da luz de 3e8 m / s, ou mesmo se a escolha do prior afeta se o posterior será adequado ou não). Portanto, na maioria das aplicações médicas, psicológicas ou econômicas, você verá abordagens comuns nos trabalhos escritos por pesquisadores substantivos,

Uma área em que, na minha opinião, a estrutura bayesiana ainda está aquém dos diagnósticos é o modelo - e essa é uma área importante para os profissionais. No mundo bayesiano, para diagnosticar um modelo, você precisa criar um modelo mais complicado e escolher o que melhor se ajusta ao fator bayesiano ou BIC. Portanto, se você não gostar da suposição de normalidade para sua regressão linear, poderá criar uma regressão com erros de Student e permitir que os dados gerem uma estimativa dos graus de liberdade, ou você pode se tornar muito sofisticado e ter um processo Dirichlet para sua termos de erro e faça alguns saltos MH entre diferentes modelos. A abordagem principal seria construir um gráfico QQ de resíduos estudados e remover valores extremos, e isso é, novamente, muito mais simples.

Editei um capítulo em um livro sobre isso - consulte http://onlinelibrary.wiley.com/doi/10.1002/9780470583333.ch5/summary . É um artigo muito arquetípico, que deu cerca de 80 referências a esse debate, todas apoiando o ponto de vista bayesiano. (Eu pedi ao autor para estendê-lo em uma versão revisada, que diz muito sobre isso :)). Jim Berger, de Duke, um dos principais teóricos bayesianos, deu uma série de palestras e escreveu vários artigos muito ponderados sobre o assunto.

StasK
fonte
14

Há uma boa razão para ainda ter os dois, ou seja, um bom artesão desejará selecionar a melhor ferramenta para a tarefa em questão, e os métodos bayesiano e freqüentador têm aplicações onde são a melhor ferramenta para o trabalho.

No entanto, muitas vezes a ferramenta errada para o trabalho é usada porque as estatísticas freqüentistas são mais acessíveis a uma abordagem de "livro de receitas estatísticas" que as torna mais fáceis de aplicar em ciência e engenharia do que suas contrapartes bayesianas, mesmo que os métodos bayesianos forneçam uma resposta mais direta a a questão colocada (que geralmente é o que podemos deduzir da amostra específica de dados que realmente temos). Eu não sou muito favorável a isso, pois a abordagem do "livro de receitas" leva ao uso de estatísticas sem uma sólida compreensão do que você está realmente fazendo, e é por isso que coisas como a falácia do valor-p surgem repetidamente.

No entanto, à medida que o tempo avança, as ferramentas de software para a abordagem bayesiana melhorarão e serão usadas com mais frequência, como o jbowman diz corretamente.

Sou bayesiano por inclinação (parece fazer muito mais sentido para mim do que a abordagem freqüentista), no entanto, acabo usando estatísticas freqüentistas em meus trabalhos, em parte porque terei problemas com os revisores se usar estatísticas bayesianas como eles. será "não padrão".

Por fim (um tanto irônico; o), para citar Max Plank "Uma nova verdade científica não triunfa convencendo seus oponentes e fazendo-os ver a luz, mas sim porque seus oponentes acabam morrendo e uma nova geração cresce familiar. com isso."

Dikran Marsupial
fonte
10

Eu não acho que os freqüentistas e bayesianos dêem respostas diferentes para as mesmas perguntas. Eu acho que eles estão preparados para responder a perguntas diferentes . Portanto, não acho que faça sentido falar muito sobre vencer de um lado ou até mesmo sobre compromisso.

Considere todas as perguntas que desejarmos fazer. Muitas são apenas perguntas impossíveis ("Qual é o verdadeiro valor de ?"). É mais útil considerar o subconjunto dessas perguntas que pode ser respondido, considerando várias suposições. O subconjunto maior são as perguntas que podem ser respondidas, nas quais você se permite usar anteriores. Chame esse conjunto de BF. Existe um subconjunto de AM, que é o conjunto de perguntas que não dependem de nenhuma prévia. Chame esse segundo subconjunto F. F é um subconjunto de BF. Defina B = BF \ B.θ

No entanto, não podemos escolher quais perguntas responder. Para fazer inferências úteis sobre o mundo, às vezes temos que responder perguntas que estão em B e isso significa usar uma prévia.

Idealmente, dado um estimador, você faria uma análise completa. Você pode usar um prior, mas também seria legal se você pudesse provar coisas boas sobre seu estimador que não dependem de nenhum prior. Isso não significa que você pode abandonar o prior, talvez as perguntas realmente interessantes exijam um prior.

Todo mundo concorda em como responder às perguntas em F. A preocupação é se as perguntas realmente 'interessantes' estão em F ou em B?

Um exemplo: um paciente entra no médico e está saudável (H) ou doente (S). Há um teste que executamos, que retornará positivo (+) ou negativo (-). O teste nunca fornece falsos negativos - isto é, . Mas, às vezes, fornece falsos positivos -P(|S)=0P(+|H)=0.05

Temos um pedaço de cartão e a máquina de teste escreverá + ou - em um lado do cartão. Imagine, se quiser, que temos um oráculo que de alguma forma sabe a verdade, e esse oráculo escreve o estado verdadeiro, H ou S, do outro lado do cartão antes de colocá-lo em um envelope.

Como médico estatisticamente treinado, o que podemos dizer sobre o cartão no envolope antes de abri-lo? As seguintes declarações podem ser feitas (estas estão em F acima):

  • Se S estiver em um lado do cartão, o outro lado será +. P(+|S)=1
  • Se H, então o outro lado será + com 5% de probabilidade, - com 95% de probabilidade. P(|H)=0.95
  • (resumindo os dois últimos pontos) A probabilidade de os dois lados corresponderem é de pelo menos 95%. P((,S)(+,H))0.95

Não sabemos o que é ou . Não podemos realmente responder isso sem algum tipo de prévia para . Mas podemos fazer afirmações sobre a soma dessas duas probabilidades.P((,S))P((+,H))P(S)

Isso é tão longe quanto podemos ir tão longe. Antes de abrir o envelope , podemos fazer afirmações muito positivas sobre a precisão do teste. Há (pelo menos) 95% de probabilidade de o resultado do teste corresponder à verdade.

Mas o que acontece quando realmente abrimos o cartão? Dado que o resultado do teste é positivo (ou negativo), o que podemos dizer sobre se estão saudáveis ​​ou doentes?

Se o teste for positivo (+), não há nada que possamos dizer. Talvez eles sejam saudáveis ​​e talvez não. Dependendo da prevalência atual da doença ( ), pode ser que a maioria dos pacientes com resultado positivo seja saudável, ou pode ser que a maioria esteja doente. Não podemos colocar limites nisso, sem primeiro nos permitir colocar limites em .P(S)P(S)

Neste exemplo simples, fica claro que todos com resultado negativo no teste são saudáveis. Não há falsos negativos e, portanto, todo estatístico enviará com alegria esse paciente para casa. Portanto, não faz sentido pagar pelo aconselhamento de um estatístico, a menos que o resultado do teste tenha sido positivo .

Os três pontos acima estão corretos e bastante simples. Mas eles também são inúteis! A questão realmente interessante, neste modelo admitidamente inventado, é:

P(S|+)

e isso não pode ser respondido sem (ou seja, um prior, ou pelo menos alguns limites no prior)P(S)

Não nego que esse seja talvez um modelo simplificado demais, mas demonstra que, se queremos fazer declarações úteis sobre a saúde desses pacientes, devemos começar com alguma crença anterior sobre a saúde deles.

Aaron McDaid
fonte
2
Como você está reconciliando a afirmação "Se , então o outro lado será com probabilidade, com probabilidade. " com sua afirmação anterior de que no parágrafo que começa com "Um exemplo:"? H+5%95%P(|S)=0.95P(|S)=0
precisa saber é o seguinte
11
Erro de digitação. Obrigado por capturar esse @DilipSarwate. Eu quis dizer , nãoP(|H)=0.95P(|S)=0.95
Aaron McDaid
2
Observe que podemos ser mais precisos do que você afirma sem conhecer e diga que um teste aumenta as chances de ficar doente versus estar saudável por um fator de . No entanto, em termos de tomada de decisão (por exemplo, tratar ou não tratar), exigimos (e uma função de perda). P(S)+20P(S)
probabilityislogic
11
Seria justo dizer que se é estimado a partir de pesquisas anteriores da população (vs. um palpite), então o lado freqüente das estatísticas se torna importante, especialmente se os pesquisadores querem estimar a precisão de ? P(S)P(S)
RobertF 24/08
6

Como você verá, há muito debate freqüentista-bayesiano em andamento. Na verdade, acho que está mais quente do que nunca e menos dogmático. Você pode estar interessado no meu blog: http://errorstatistics.com

maio
fonte
2
Estou familiarizado com o seu trabalho através dos escritos de Shalizi & Gelman. Vou seguir definitivamente o blog. E, no entanto, eu me pergunto, é "Bayes" de Gelman o mesmo que "Bayes" de
DeFinetti
1

Muitas pessoas (fora dos especialistas) que pensam que são freqüentistas são de fato bayesianas. Isso torna o debate um pouco inútil. Eu acho que o bayesianismo venceu, mas ainda existem muitos bayesianos que se acham freqüentadores. Algumas pessoas pensam que não usam produtos anteriores e, portanto, pensam que são freqüentistas. Essa é uma lógica perigosa. Não se trata tanto de antecedentes (antecedentes uniformes ou não uniformes), a diferença real é mais sutil.

(Não estou formalmente no departamento de estatística; minha formação é em matemática e ciência da computação. Estou escrevendo por causa de dificuldades que tive tentando discutir esse 'debate' com outros não-estatísticos e até com alguns iniciantes na carreira. estatísticos.)

O MLE é na verdade um método bayesiano. Algumas pessoas dirão "Sou freqüentador porque uso o MLE para estimar meus parâmetros". Eu já vi isso na literatura revisada por pares. Isso é um absurdo e baseia-se nesse mito (não dito, mas implícito) de que um freqüentador é alguém que usa um uniforme anterior em vez de um anterior não uniforme.

Considere desenhar um número único de uma distribuição normal com média conhecida, e variação desconhecida. Chame essa variação .μ=0θ

XN(μ=0,σ2=θ)

Agora considere a função de probabilidade. Essa função possui dois parâmetros, e e retorna a probabilidade, dada , de .xθθx

f(x,θ)=Pσ2=θ(X=x)=12πθex22θ

Você pode imaginar plotar isso em um mapa de calor, com no eixo x e no eixo y, e usando a cor (ou eixo z). Aqui está o enredo, com linhas de contorno e cores.xθ

O mapa de calor

Primeiro, algumas observações. Se você fixar um único valor de , poderá levar a fatia horizontal correspondente através do mapa de calor. Essa fatia fornece o pdf para esse valor de . Obviamente, a área sob a curva nessa fatia será 1. Por outro lado, se você fixar um único valor de e depois olhar para a fatia vertical correspondente , não haverá tal garantia sobre a área sob a curva .θθx

Essa distinção entre as fatias horizontais e verticais é crucial, e descobri que essa analogia me ajudou a entender a abordagem freqüentista do viés .

Um bayesiano é alguém que diz

Para esse valor de x, quais valores de dão um valor "alto o suficiente" de ?θf(x,θ)

Como alternativa, um bayesiano pode incluir um anterior, , mas eles ainda estão falando sobreg(θ)

para esse valor de x, quais valores de dão um valor alto o suficiente de ?f ( x , θ ) g ( θ )θf(x,θ)g(θ)

Portanto, um bayesiano fixa x e examina a fatia vertical correspondente nesse gráfico de contorno (ou no gráfico de variantes que incorpora o anterior). Nesta fatia, a área sob a curva não precisa ser 1 (como eu disse anteriormente). Um intervalo bayesiano de 95% de credibilidade (IC) é o intervalo que contém 95% da área disponível. Por exemplo, se a área for 2, a área sob o IC Bayesiano deve ser 1,9.

Por outro lado, um frequentista ignorará x e primeiro considerará consertar , e perguntará:θ

Para esse , quais valores de x aparecerão com mais frequência?θ

Neste exemplo, com , uma resposta a essa pergunta freqüente é: "Para um dado , 95% do aparecerá entre e . "θ x - 3 N(μ=0,σ2=θ)θx +33θ+3θ

Portanto, um frequentista está mais preocupado com as linhas horizontais correspondentes aos valores fixos de .θ

Esta não é a única maneira de construir o IC freqüentista, nem sequer é bom (estreito), mas tenha paciência comigo por um momento.

A melhor maneira de interpretar a palavra 'intervalo' não é um intervalo em uma linha 1-d, mas pensar nela como uma área no plano 2-d acima. Um 'intervalo' é um subconjunto do plano 2-d, não de qualquer linha 1-d. Se alguém propõe esse 'intervalo', precisamos testar se o 'intervalo' é válido em um nível de confiança / credibilidade de 95%.

Um frequentista verificará a validade desse 'intervalo', considerando cada fatia horizontal e analisando a área sob a curva. Como eu disse antes, a área sob essa curva será sempre uma. O requisito crucial é que a área dentro do 'intervalo' seja de pelo menos 0,95.

Um bayesiano verificará a validade observando as fatias verticais. Novamente, a área abaixo da curva será comparada à subárea que está abaixo do intervalo. Se o último for pelo menos 95% do primeiro, o 'intervalo' é um intervalo credível bayesiano válido de 95%.

Agora que sabemos como testar se um intervalo específico é 'válido', a questão é como escolhemos a melhor opção entre as opções válidas. Isso pode ser uma arte negra, mas geralmente você deseja o intervalo mais estreito. Ambas as abordagens tendem a concordar aqui - as fatias verticais são consideradas e o objetivo é tornar o intervalo o mais estreito possível dentro de cada fatia vertical.

Não tentei definir o menor intervalo de confiança freqüentista possível no exemplo acima. Veja os comentários do @cardinal abaixo para exemplos de intervalos mais estreitos. Meu objetivo não é encontrar os melhores intervalos, mas enfatizar a diferença entre as fatias horizontais e verticais na determinação da validade. Um intervalo que satisfaça as condições de um intervalo de confiança freqüentista de 95% geralmente não satisfaz as condições de um intervalo credível bayesiano de 95% e vice-versa.

Ambas as abordagens desejam intervalos estreitos, ou seja, ao considerar uma fatia vertical, queremos que o intervalo (1-d) dessa fatia seja o mais estreito possível. A diferença está na maneira como os 95% são aplicados - um freqüentador analisará apenas os intervalos propostos em que 95% da área de cada fatia horizontal está abaixo do intervalo, enquanto um bayesiano insistirá em que cada fatia vertical seja tal que 95% de sua área seja sob o intervalo.

Muitos não estatísticos não entendem isso e se concentram apenas nas fatias verticais; isso os torna bayesianos, mesmo que pensem o contrário.

Aaron McDaid
fonte
3
(-1) Creio que este post mostra alguns mal-entendidos fundamentais em vários pontos. É difícil saber mesmo por onde começar.
cardeal
11
Vamos abordar um que parece formar a maioria deste post. No exemplo dado, e, portanto, é uma quantidade essencial com base na estatística suficiente para . Um IC frequentista é aquele que satisfaz uniformemente em e para todas as realizações possíveis de . Devido às propriedades mencionadas acima de , é o candidato natural no qual basear o IC. (continuação) θX2/θχ12θ(θ^,θ^u)P(θ(θ^,θ^u))=1α θXX2/θ
cardeal
11
(cont.) Uma escolha é onde indica o th quantil do distribuição. Quase qualquer frequentista usaria, em vez disso, o intervalo , já que é infinitamente mais estreito e fácil de construir. No entanto , este último intervalo não é nem o mais curto, que pode ser encontrado por um procedimento numérico simples. Em suma , a principal premissa do argumento na resposta parece estar completamente errada. [X2/q1α,)qbbχ12[X2/q1α/2,X2/qα/2]
cardeal
Olá @ cardinal, entendo seus pontos de vista nos seus últimos dois comentários. Na verdade, acho que seus pontos são consistentes com o que eu disse :-) OK, existem várias maneiras diferentes de construir intervalos de confiança freqüentes. Você aceita que o método que descrevi é válido. E você (razoavelmente) ressalta que meu método não é o mais restrito. Eu acho que seu primeiro comentário não foi muito útil.
Aaron McDaid
2
@ cardinal, pensando bem, aceito que o final da minha resposta não seja útil e esteja basicamente errado, vou arrumar isso. Isso distrai do meu ponto principal, que é o de que muitas pessoas fora do departamento de estatísticas que têm uma opinião forte sobre isso não apreciam a diferença fundamental entre as duas abordagens: ambas as abordagens parecem ter uma boa área sob a curva (pelo menos 95% ), mas a diferença é escolher uma fatia horizontal (freqüentista) ou vertical (bayesiana) no mapa de calor. Estou bem aqui, e vale a pena fazer esse ponto aqui?
Aaron McDaid