Por que eu deveria ser bayesiano quando meu modelo está errado?

68

Edições: adicionei um exemplo simples: inferência da média do . Também esclareci um pouco porque os intervalos credíveis que não correspondem aos intervalos de confiança são ruins.Xi

Eu, um bayesiano bastante devoto, estou no meio de uma espécie de crise de fé.

Meu problema é o seguinte. Suponha que eu queira analisar alguns dados de . O que eu faria é:Xi

  • primeiro, proponha um modelo condicional:

    p(X|θ)
  • Em seguida, escolha um anterior em : θ

    p(θ)
  • Por fim, aplique a regra de Bayes, calcule a posterior: (ou alguma aproximação a ela, se for desconectável) e responda a todas as perguntas que tenho sobrep(θ|X1Xn)θ

Essa é uma abordagem sensata: se o verdadeiro modelo dos dados está realmente "dentro" dos meus condicionais (corresponde a algum valor ), posso recorrer à teoria da decisão estatística para dizer que meu método é admissível (ver Robert's "A escolha bayesiana" para detalhes; "Todas as estatísticas" também fornece uma descrição clara no capítulo relevante).Xiθ0

No entanto, como todos sabem, supor que meu modelo esteja correto é bastante arrogante: por que a natureza deveria se encaixar perfeitamente na caixa dos modelos que eu considerei? É muito mais realista supor que o modelo real dos dados difere de para todos os valores de . Isso geralmente é chamado de modelo "mal especificado".ptrue(X)p(X|θ)θ

Meu problema é que, nesse caso mais realista e mal especificado, não tenho bons argumentos para ser bayesiano (ou seja: calcular a distribuição posterior) versus simplesmente calcular o Estimador de Máxima Verossimilhança (MLE):

θ^ML=argmaxθ[p(X1Xn|θ)]

De fato, de acordo com Kleijn, vd Vaart (2012) , no caso mal especificado, a distribuição posterior:

  • converge como para uma distribuição dirac centralizada emnθ^ML

  • não possui a variação correta (a menos que dois valores sejam iguais) para garantir que intervalos credíveis dos intervalos de correspondência posterior correspondam a . (Observe que, embora os intervalos de confiança sejam obviamente algo com que os bayesianos não se importam excessivamente, isso significa qualitativamente que a distribuição posterior está intrinsecamente errada, pois implica que seus intervalos confiáveis ​​não têm cobertura correta)θ

Assim, estamos pagando um prêmio computacional (a inferência bayesiana, em geral, é mais cara que o MLE) por nenhuma propriedade adicional

Assim, finalmente, minha pergunta: existem argumentos, sejam eles teóricos ou empíricos, para usar a inferência bayesiana sobre a alternativa mais simples de MLE quando o modelo é mal especificado?

(Como sei que minhas perguntas geralmente não são claras, entre em contato se você não entender alguma coisa: tentarei reformulá-la)

Edit: vamos considerar um exemplo simples: inferir a média do sob um modelo gaussiano (com variação conhecida para simplificar ainda mais). Consideramos um prior gaussiano: denotamos a média anterior, a variação inversa do prior. Seja a média empírica do . Por fim, observe: .Xiσμ0β0X¯Xiμ=(β0μ0+nσ2X¯)/(β0+nσ2)

A distribuição posterior é:

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

No caso especificado corretamente (quando o realmente tem uma distribuição gaussiana), esse posterior tem as seguintes propriedades agradáveisXi

  • Se o for gerado a partir de um modelo hierárquico no qual sua média compartilhada é escolhida na distribuição anterior, os intervalos credíveis posteriores terão cobertura exata. Dependendo dos dados, a probabilidade de estar em qualquer intervalo é igual à probabilidade que o posterior atribui a esse intervaloXiθ

  • Mesmo que o anterior não esteja correto, os intervalos confiáveis ​​têm cobertura correta no limite no qual a influência anterior no posterior desaparecen

  • o posterior tem boas propriedades freqüentistas: qualquer estimador bayesiano construído a partir do posterior é admissível, a média posterior é um estimador eficiente (no sentido de Cramer-Rao) da média, intervalos credíveis são, assintoticamente, intervalos de confiança.

No caso mal especificado, a maioria dessas propriedades não é garantida pela teoria. Para consertar idéias, vamos assumir que o modelo real para o é que elas são distribuições de Student. A única propriedade que podemos garantir (Kleijn et al) é que a distribuição posterior se concentra na média real do no limite . Em geral, todas as propriedades de cobertura desapareceriam. Pior, em geral, podemos garantir que, nesse limite, as propriedades de cobertura estejam fundamentalmente erradas: a distribuição posterior atribui a probabilidade errada a várias regiões do espaço.XiXin

Guillaume Dehaene
fonte
2
Bem, as abordagens bayesianas se regularizam. Isso é algo, para ajudar a evitar ajustes excessivos - independentemente de seu modelo estar ou não especificado de maneira errada. Obviamente, isso apenas leva à questão relacionada sobre argumentos para a inferência bayesiana contra abordagens clássicas regularizadas (laço, regressão de cordilheira, rede elástica etc.).
S. Kolassa - Restabelece Monica
3
Você pode estar interessado neste trabalho e em seus parentes.
Dougal
7
Quando o modelo é mal especificado em termos de usar a função de probabilidade incorreta, então ambos MLE e estimativas Bayesiana seria errado ...
Tim
5
@ Tim: a inferência MLE e Bayesiana não têm sentido no caso mal especificado: ambos tentam recuperar o valor do parâmetro que fornece a melhor conta dos dados nos modelos condicionais. Mais precisamente, é o argumento de onde KL é a divergência de Kullback Leibler. Sob pressupostos suaves, tanto MLE e inferência Bayesiana identificar correctamente esta quando fornecido com uma quantidade suficiente de dadosθ~0θ~0KL[p(X),p(X|θ)]θ~0
Guillaume Dehaene
3
@amoeba Imagino olhar Bayesian hard-core e agir como comandante Che
Aksakal

Respostas:

31

Considero a abordagem bayesiana quando meu conjunto de dados não é tudo que se sabe sobre o assunto e quero, de alguma forma, incorporar esse conhecimento exógeno em minha previsão.

Por exemplo, meu cliente deseja uma previsão dos padrões de empréstimo em seu portfólio. Eles têm 100 empréstimos com alguns anos de dados históricos trimestrais. Houve algumas ocorrências de inadimplência (atraso no pagamento) e apenas algumas inadimplências. Se eu tentar estimar o modelo de sobrevivência nesse conjunto de dados, serão muito poucos dados para estimar e muita incerteza para prever.

Por outro lado, os gerentes de portfólio são pessoas experientes, algumas delas podem ter passado décadas gerenciando relacionamentos com mutuários. Eles têm idéias sobre como devem ser as taxas padrão. Então, eles são capazes de criar antecedentes razoáveis. Note, não os anteriores que têm boas propriedades matemáticas e parecem intelectualmente atraentes para mim . Conversarei com eles e extrairei suas experiências e conhecimentos na forma desses anteriores.

Agora, a estrutura bayesiana me fornecerá mecânica para casar o conhecimento exógeno na forma de anteriores com os dados e obter o posterior superior ao julgamento qualitativo puro e à previsão orientada a dados puros, na minha opinião. Isso não é uma filosofia e eu não sou bayesiano. Estou apenas usando as ferramentas bayesianas para incorporar consistentemente o conhecimento especializado na estimativa baseada em dados.

Aksakal
fonte
3
Um ponto muito agradável. A inferência bayesiana oferece uma estrutura para resolver precisamente uma tarefa como a que você apresentou. Obrigado.
Guillaume Dehaene
5
Este é um argumento geral para a modelagem bayesiana, mas como isso se relaciona com o caso específico de modelo mal especificado? Não vejo uma conexão.
Richard Hardy
4
Bem, isso se relaciona à minha pergunta: mesmo no caso mal especificado, a inferência bayesiana lida com informações qualitativas melhores (ou seja, de uma maneira mais baseada em princípios), via métodos anteriores, do que os métodos MLE, que teriam que trabalhar com regularizadores. É uma forma de argumento empírico sobre por que a inferência bayesiana é um pouco melhor que a MLE.
precisa
2
@Aksakal, se os modelos estão com erros de especificação está fora de questão. O que me preocupa é que você não responde à pergunta. (Se o OP discordar, acho que ele fez um péssimo trabalho ao formular a pergunta.) Mas vejo que houve uma edição recente; portanto, talvez a pergunta tenha sido alterada agora.
Richard Hardy
4
@RichardHardy, acho que minha resposta está no coração da crise de fé do OP, que é impulsionada pelo pensamento de que, se o seu modelo condicional for mal especificado, ele dominará o anterior com o aumento do tamanho da amostra e sua posterior será empurrada para o modelo errado . Nesse caso, por que se preocupar com o Bayesiano, por que não apenas com o MLE direto, ele pergunta. Meu exemplo é decididamente não filosófico, mas prático: você lida com frequência não apenas com amostras finitas, mas pequenas. Portanto, seus dados não arrastarão o posterior muito longe do anterior, o que representa o conhecimento exógeno.
Aksakal
25

Uma pergunta muito interessante ... que pode não ter uma resposta (mas que não a torna menos interessante!)

Algumas reflexões (e muitos links para as entradas do meu blog!) Sobre esse meme de que todos os modelos estão errados :

  1. Embora o modelo hipotético seja realmente quase invariavelmente e irremediavelmente errado , ainda faz sentido agir de maneira eficiente ou coerente com relação a esse modelo, se é o melhor que se pode fazer. A inferência resultante produz uma avaliação do modelo formal que é o "mais próximo" do modelo de geração de dados real (se houver);
  2. Existem abordagens bayesianas que podem prescindir do modelo , sendo um exemplo mais recente os trabalhos de Bissiri et al. (com meus comentários ) e por Watson e Holmes (que discuti com Judith Rousseau );
  3. De uma maneira conectada, existe um ramo inteiro das estatísticas bayesianas que tratam da inferência M-aberta ;
  4. E ainda outra direção de que gosto muito é a abordagem SafeBayes de Peter Grünwald , que leva em consideração a especificação incorreta do modelo para substituir a probabilidade por uma versão reduzida, expressa como um poder da probabilidade original.
  5. O muito recente Read Paper de Gelman e Hennig aborda essa questão, embora de uma maneira contornada (e eu adicionei alguns comentários no meu blog ). Presumo que você possa reunir material para uma discussão a partir das entradas sobre sua pergunta.
  6. Em certo sentido, os bayesianos devem ser os menos preocupados entre estatísticos e modeladores sobre esse aspecto, uma vez que o modelo de amostragem deve ser tomado como uma das várias suposições anteriores e o resultado é condicional ou relativo a todas essas suposições anteriores.
Xi'an
fonte
2
É muito bom ter sua opinião sobre isso. Seu primeiro ponto faz sentido intuitivo: se o modelo não estiver muito errado, o resultado da nossa inferência deve estar bem. No entanto, alguém já provou algum resultado assim (ou explorou a questão empiricamente)? Seu último ponto (que eu poderia ter entendido mal) me deixa perplexo: o modelo de amostragem é uma escolha crítica. O fato de também fazermos escolhas também não significa que erros na escolha do modelo de amostragem não possam prejudicar todo o modelo. Obrigado pelas referências e pelo maravilhoso blog.
precisa
Para o ponto 1., por que não a média do modelo bayesiano? Por que apenas usar o modelo 'melhor'?
Innisfree
@innisfree: tudo depende do que você planeja fazer com o resultado, não tenho religião sobre a média do modelo versus o melhor modelo.
Xian
11
Você parece sugerir que existe um aspecto teórico da decisão de calcular a incerteza do modelo em comparação com escolher apenas o modelo "melhor". Certamente, é sempre vantajoso, ou seja, ajuda a tomar melhores decisões, incorporar coerentemente todas as incertezas, incluindo as incertezas do modelo.
innisfree
2
Minha principal objeção aos não paramétricos é prática: eles são mais caros em termos computacionais por várias ordens de magnitudes em comparação com alternativas mais simples. Além disso, também não encontramos problemas com os não paramétricos, porque é quase impossível que duas distribuições anteriores tenham suporte comum? Isso significa que o prior teria uma forte influência e que seria (quase) impossível para os estatísticos bayesianos concordarem ao começar com diferentes antecedentes.
precisa saber é o seguinte
12

Edições: adicionada referência a este documento no corpo, conforme solicitado pelo OP.


Estou dando uma resposta como um bayesiano empírico ingênuo aqui.

Primeiro, a distribuição posterior permite fazer cálculos que você simplesmente não pode fazer com um MLE direto. O caso mais simples é que o posterior de hoje é o anterior de amanhã . A inferência bayesiana naturalmente permite atualizações seqüenciais, ou mais, em geral, combinação on-line ou atrasada de várias fontes de informação (incorporar uma prévia é apenas uma instância de livro didático dessa combinação). A teoria da decisão bayesiana com uma função de perda não trivial é outro exemplo. Eu não saberia o que fazer de outra maneira.

Segundo, com esta resposta, tentarei argumentar que o mantra de que a quantificação da incerteza é geralmente melhor do que nenhuma incerteza é efetivamente uma questão empírica, uma vez que os teoremas (como você mencionou e até onde eu sei) não fornecem garantias.

Otimização como modelo de brinquedo do esforço científico

Um domínio que sinto capturar completamente a complexidade do problema é muito prático e sem sentido, a otimização de uma função de caixa preta . Assumimos que podemos consultar sequencialmente um ponto e obter uma observação possivelmente ruidosa , com . Nosso objetivo é chegar o mais próximo possível de com o número mínimo de avaliações de funções.f:XRDRxXy=f(x)+εεN(0,σ2)x=argminxf(x)

Uma maneira particularmente eficaz de proceder, como você pode esperar, é criar um modelo preditivo do que aconteceria se eu consultar qualquer e usar essas informações para decidir o que fazer em seguida ( local ou globalmente). Consulte Rios e Sahinidis (2013) para uma revisão dos métodos de otimização global sem derivativos. Quando o modelo é suficientemente complexo, isso é chamado de meta-modelo ou função substituta ou abordagem da superfície de resposta . Fundamentalmente, o modelo pode ser uma estimativa pontual de (por exemplo, o ajuste de uma função de rede de base radial às nossas observações), ou podemos ser bayesianos e, de alguma forma, obter uma distribuição posterior completa sobrexXff (por exemplo, através de um processo gaussiano).

Otimização Bayesiana utiliza a posterior sobre (em particular, a posterior condicional conjunta média e variância em qualquer ponto) para orientar a busca do ótimo (global) através de algum heurística princípios. A escolha clássica é maximizar a melhoria esperada sobre o melhor ponto atual, mas existem métodos ainda mais sofisticados, como minimizar a entropia esperada sobre a localização do mínimo (veja também aqui ).f

O resultado empírico aqui é que ter acesso a um posterior, mesmo que parcialmente especificado incorretamente, geralmente produz melhores resultados do que outros métodos. (Existem advertências e situações nas quais a otimização bayesiana não é melhor que a pesquisa aleatória, como em altas dimensões.) Neste artigo , realizamos uma avaliação empírica de um novo método de BO versus outros algoritmos de otimização, verificando se o uso de BO é conveniente na prática, com resultados promissores.

Desde que você perguntou - isso tem um custo computacional muito mais alto do que outros métodos não bayesianos, e você estava se perguntando por que deveríamos ser bayesianos. A suposição aqui é que o custo envolvido na avaliação do verdadeiro (por exemplo, em um cenário real, um complexo complexo de engenharia ou experimento de aprendizado de máquina) é muito maior que o custo computacional para a análise bayesiana, portanto, o bayesiano compensa .f

O que podemos aprender com esse exemplo?

Primeiro, por que a otimização bayesiana funciona? Acho que o modelo está errado, mas não tão errado, e, como sempre, o erro depende de qual é o seu modelo. Por exemplo, a forma exata de não é relevante para a otimização, pois poderíamos otimizar qualquer transformação monotônica. Eu acho que a natureza está cheia de tais invariâncias. Portanto, a pesquisa que estamos fazendo pode não ser ótima (ou seja, estamos descartando boas informações), mas ainda melhor do que sem informações sobre incertezas.f

Segundo, nosso exemplo destaca que é possível que a utilidade de ser bayesiano ou não dependa do contexto , por exemplo, o custo relativo e a quantidade de recursos disponíveis (computacionais). (Obviamente, se você é um bayesiano incondicional, acredita que todo cálculo é inferência bayesiana sob alguma prévia e / ou aproximação.)

Finalmente, a grande questão é: por que os modelos que usamos não são tão ruins, afinal, no sentido de que os posteriores ainda são úteis e não são lixo estatístico? Se adotarmos o teorema do almoço grátis, aparentemente não poderíamos dizer muito, mas felizmente não vivemos em um mundo de funções completamente aleatórias (ou escolhidas pelo adversário ).

Mais em geral, desde que você colocou a etiqueta "filosófica" ... Acho que estamos entrando no reino do problema da indução ou da eficácia irracional da matemática nas ciências estatísticas (especificamente, da nossa intuição matemática e capacidade de especificar modelos que funcionam na prática) - no sentido de que, do ponto de vista puramente a priori, não há razão para que nossas suposições sejam boas ou tenham alguma garantia (e com certeza você pode criar contra-exemplos matemáticos nos quais as coisas dão errado), mas elas trabalhar bem na prática.

lacerbi
fonte
2
Resposta incrível. Muito obrigado pela sua contribuição. Existe alguma revisão / comparação justa de otimização bayesiana versus técnicas de otimização normal que realce que a versão bayesiana é empiricamente melhor como você afirma? (Eu sou muito bem com levá-lo à sua palavra, mas uma referência seria útil)
Guillaume Dehaene
11
Obrigado! Penso que a chamada numérica probabilística contém vários argumentos teóricos e empíricos. Não conheço uma referência que realmente compare métodos BO com métodos padrão, mas [ aviso de disparo: plugue sem vergonha ] Atualmente, estou trabalhando em algo nesse sentido no campo da neurociência computacional; Pretendo colocar alguns dos resultados no arXiv, espero que nas próximas semanas.
lacerbi
De fato, pelo menos a figura 2 tem uma comparação clara. Você poderia adicionar seu trabalho à sua pergunta principal assim que ela sair? Eu sinto que seria uma adição valiosa.
Guillaume Dehaene
Sim - esse é o método deles para a quadratura bayesiana adaptativa, que é uma ideia muito interessante (na prática, sua eficácia depende se a aproximação do GP funciona; que geralmente é quase equivalente a dizer que você tem uma parametrização sensata do seu problema). Vou adicionar o link à resposta quando meu trabalho estiver disponível, obrigado.
precisa saber é
11
@IMA: Desculpe, acho que não entendo 100% do seu ponto. Eu estava usando a otimização da caixa preta como modelo de brinquedo do empreendimento científico. Eu acredito que você pode mapear muitas etapas e problemas da "ciência" para esse domínio mais simples (mas ainda incrivelmente complexo). Não há necessidade da suposição de "ruído gaussiano" para o meu argumento, foi apenas por simplicidade. Problemas de otimização do mundo real (por exemplo, em engenharia) podem ser corrompidos por ruídos não gaussianos, e isso é algo que precisa ser resolvido. E os processos gaussianos não precisam de ruído de observação gaussiano (embora isso facilite a inferência).
lacerbi 21/10
10

Eu só vejo isso hoje, mas ainda acho que devo me interessar, já que sou um especialista e que pelo menos duas respostas (nºs 3 e 20 (obrigado por se referir ao meu trabalho Xi'an!)) Mencionam meu trabalho em SafeBayes - em particular G. e van Ommen, "Inconsistência de inferência bayesiana para modelos lineares não especificados e uma proposta para repará-lo" (2014). E eu também gostaria de adicionar algo para comentar 2:

2 diz: (uma vantagem de Bayes sob especificação incorreta é ...) "Bem, as abordagens bayesianas se regularizam. Isso é algo para ajudar a evitar o ajuste excessivo - independentemente de seu modelo ser ou não especificado. Claro, isso apenas leva à pergunta relacionada sobre argumentos para a inferência bayesiana contra abordagens clássicas regularizadas (laço etc.) "

Isso é verdade, mas é crucial acrescentar que as abordagens bayesianas podem não regularizar o suficiente se o modelo estiver errado. Este é o ponto principal do trabalho com Van Ommen - vemos lá que Bayes padrão se adapta terrivelmente em algum contexto de regressão a modelos errados, mas muito úteis. Não é tão ruim quanto o MLE, mas ainda é demais para ser útil. Há todo um trabalho no aprendizado de máquina teórico (freqüentista e teórico dos jogos), onde eles usam métodos semelhantes ao Bayes, mas com uma 'taxa de aprendizado' muito menor - tornando o anterior mais e os dados menos importantes, regularizando mais. Esses métodos foram projetados para funcionar bem em situações de pior caso (especificação incorreta e, pior ainda, dados contraditórios) - a abordagem SafeBayes foi projetada para 'aprender a taxa de aprendizado ideal' com os próprios dados - e essa taxa de aprendizado ideal, ou seja, a quantidade ideal de regularização,

De maneira semelhante, existe um teorema popular (mencionado por vários acima) dizendo que Bayes terá o concentrado posterior na distribuição mais próxima da divergência de KL em relação à 'verdade'. Mas isso é válido apenas em condições muito rigorosas - MUITO mais rigorosas do que as condições necessárias para a convergência no caso bem especificado. Se você estiver lidando com modelos paramétricos de baixa dimensão padrão e os dados estiverem de acordo com alguma distribuição (não no modelo), o posterior realmente se concentrará em torno do ponto no modelo mais próximo da verdade na divergência de KL. Agora, se você estiver lidando com grandes modelos não paramétricos e o modelo estiver correto, (essencialmente) seu posterior ainda se concentrará em torno da verdadeira distribuição, com dados suficientes, desde que o seu anterior coloque massa suficiente em pequenas bolas de KL em torno da verdadeira distribuição. Isto é ocondição fraca necessária para convergência no caso não paramétrico, se o modelo estiver correto.

Mas se o seu modelo não é paramétrico e está incorreto, o posterior pode simplesmente não se concentrar em torno do ponto KL mais próximo, mesmo se o seu anterior coloca massa perto de 1 (!) Lá - o posterior pode permanecer confuso para sempre, concentrando-se em distribuições sempre diferentes à medida que o tempo avança, mas nunca em torno do melhor. Nos meus trabalhos, tenho vários exemplos disso. Os documentos que mostram convergência sob especificação incorreta (por exemplo, Kleijn e van der Vaart) exigem muitas condições adicionais, por exemplo, o modelo deve ser convexo ou o anterior deve obedecer a certas propriedades (complicadas). É isso que quero dizer com condições "rigorosas".

Na prática, frequentemente lidamos com modelos paramétricos, mas com dimensões muito altas (pense em regressão bayesiana de crista etc.). Então, se o modelo estiver errado, eventualmente o seu posterior se concentrará na melhor distribuição KL do modelo, mas uma mini-versão da inconsistência não paramétrica ainda se mantém: pode ser necessário mais pedidos de magnitude antes que a convergência aconteça - novamente, meu artigo com Van Ommen dá exemplos.

A abordagem SafeBayes modifica os bayes padrão de forma a garantir a convergência em modelos não paramétricos sob (essencialmente) as mesmas condições do caso bem especificado, ou seja, massa anterior suficiente próxima à distribuição ideal de KL no modelo (G. e Mehta, 2014 )

Depois, há a questão de saber se Bayes tem justificativa sob especificação incorreta. IMHO (e como também mencionado por várias pessoas acima), as justificativas padrão de Bayes (admissibilidade, Savage, De Finetti, Cox etc.) não são válidas aqui (porque se você perceber que seu modelo está com especificação incorreta, suas probabilidades não representam suas verdadeiras crenças !). No entanto, muitos métodos Bayes também podem ser interpretados como 'métodos de comprimento mínimo de descrição (MDL)' - MDL é um método teórico da informação que iguala 'aprender com os dados' com 'tentar compactar os dados o máximo possível'. Essa interpretação da compressão de dados de (alguns) métodos bayesianos permanece válida sob especificação incorreta. Então ainda interpretação subjacente que se sustenta sob especificação incorreta - no entanto, existem problemas, como mostra meu artigo com van Ommen (e o intervalo de confiança / problema de conjunto credível mencionado no post original).

E então uma observação final sobre o post original: você menciona a justificativa de 'admissibilidade' de Bayes (voltando à aula completa de Wald na década de 1940/50). Se isso é realmente uma justificativa de Bayes, depende realmente muito da definição precisa de 'inferência bayesiana' (que difere de pesquisador para pesquisador ...). A razão é que esses resultados de admissibilidade permitem a possibilidade de usar um prior que depende de aspectos do problema, como tamanho da amostra e função de perda de interesse, etc. dados eles precisam processar alterações ou se a função de perda de interesse for alterada repentinamente. Por exemplo, com funções de perda estritamente convexas, os estimadores de minimax também são admissíveis - embora geralmente não sejam considerados bayesianos! O motivo é que, para cada tamanho fixo de amostra, eles são equivalentes a Bayes com um prior em particular, mas o prior é diferente para cada tamanho de amostra.

Espero que isso seja útil!

Peter Grünwald
fonte
2
Bem-vindo ao CrossValidated e obrigado por responder a esta pergunta. Uma observação menor - você não pode confiar nas respostas sendo classificadas na mesma ordem em que as vê; pessoas diferentes podem classificar em ordens diferentes (há uma escolha de diferentes critérios de classificação na parte superior da resposta mais alta) e dois desses critérios mudam ao longo do tempo. Ou seja, se você se referir a eles como "nº 3 e 20", as pessoas não saberão quais respostas você quer dizer. [I só pode encontrar dez respostas também.]
Glen_b
11
Obrigado por uma ótima resposta, Peter. Estou confuso com o seu comentário de que a inferência bayesiana no caso mal especificado requer suposições muito fortes. A quais suposições você se refere explicitamente? Você está falando da condição de que o posterior precisa convergir para uma distribuição dirac com o melhor valor de parâmetro? ou você está falando das condições mais técnicas sobre a probabilidade de garantir normalidade assintótica?
Guillaume Dehaene
Ok, graças a Glen B (moderador) - vou manter isso em mente a partir de agora.
Peter Grünwald
Guillaume - Estou atualizando o acima para levar em conta seu comentário #
Peter Grünwald
7

Existe o tradeoff de variação de polarização usual. A inferência bayesiana assumindo o caso fechado por M [1,2] apresenta uma variação menor [3], mas no caso de erros de especificação do modelo, o viés cresce mais rapidamente [4]. Também é possível fazer inferência bayesiana assumindo o caso M-aberto [1,2], que apresenta uma variação maior [3], mas no caso de erros de especificação do modelo, o viés é menor [4]. Dicussões sobre essa troca de viés entre os casos Bayesian M-closed e M-open também aparecem em algumas das referências incluídas nas referências abaixo, mas há claramente a necessidade de mais.

[1] Bernardo e Smith (1994). Teoria Bayesiana. John Wiley e filhos.

[2] Vehtari e Ojanen (2012). Uma pesquisa de métodos preditivos bayesianos para avaliação, seleção e comparação de modelos. Statistics Surveys, 6: 142-228. http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen e Aki Vehtari (2017). Comparação de métodos preditivos bayesianos para seleção de modelos. Statistics and Computing, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .

[4] Yao, Vehtari, Simpson e Andrew Gelman (2017). Usando empilhamento para distribuir preditivas bayesianas médias. pré-impressão do arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030

Aki Vehtari
fonte
7

Aqui estão algumas outras maneiras de justificar a inferência bayesiana em modelos não especificados.

  • Você pode construir um intervalo de confiança na média posterior, usando a fórmula sanduíche (da mesma maneira que faria com o MLE). Portanto, mesmo que os conjuntos credíveis não tenham cobertura, você ainda pode produzir intervalos de confiança válidos nos estimadores de pontos, se é nisso que está interessado.

  • Você pode redimensionar a distribuição posterior para garantir que conjuntos confiáveis ​​tenham cobertura, que é a abordagem adotada em:

Müller, Ulrich K. "Risco de inferência bayesiana em modelos não especificados e a matriz de covariância sanduíche". Econometrica 81,5 (2013): 1805-1849.

  • Existe uma justificativa não assintótica para a regra de Bayes: omitir as condições técnicas, se o prior for e a probabilidade do log for , o posterior é a distribuição que minimiza sobre todas as distribuições . O primeiro termo é como um utilitário esperado: você deseja colocar massa em parâmetros que geram uma alta probabilidade. O segundo termo se regulariza: você deseja uma pequena divergência de KL em relação ao anterior. Esta fórmula diz explicitamente o que o posterior está otimizando. É muito usado no contexto de quase probabilidade, em que as pessoas substituem a probabilidade de log por outra função de utilidade.p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)
Pierrot
fonte
Obrigado pelo artigo de Muller: acho que responde a muitas das perguntas que tenho.
Guillaume Dehaene
6

suponha que o modelo real dos dados diferente de para todos os valores deptrue(X)p(X|θ)θ

A interpretação bayesiana dessa suposição é que existe uma variável aleatória adicional e um valor em seu intervalo modo que . Seu conhecimento prévio diz e . Então que não é uma distribuição de probabilidade adequada.ϕϕ0ϕ0p(X|θ,ϕ=ϕ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

Este caso corresponde a uma regra de inferência semelhante na lógica em que , ou seja, você não pode deduzir nada de uma contradição. O resultado é uma maneira pela qual a teoria das probabilidades bayesianas diz que seu conhecimento prévio não é consistente com seus dados. Se alguém não conseguiu obter esse resultado na derivação do posterior, significa que a formulação falhou em codificar todo o conhecimento prévio relevante. Quanto à avaliação dessa situação, entrego a Jaynes (2003, p.41):A,¬Ap(θ|X,ϕ=ϕ0)=0

... é uma ferramenta analítica poderosa que pode pesquisar um conjunto de proposições e detectar uma contradição nelas, se houver. O princípio é que não existem probabilidades condicionais em premissas contraditórias (o espaço da hipótese é reduzido ao conjunto vazio). Portanto, coloque nosso robô para trabalhar; ou seja, escreva um programa de computador para calcular probabilidades condicional a um conjunto de proposições Mesmo que nenhuma contradição seja aparente na inspeção, se houver uma contradição oculta emp(B|E)E=(E1,E2,,En)E, o programa de computador falhará. Descobrimos isso empiricamente '', e depois de pensarmos que não é motivo de consternação, mas sim uma ferramenta de diagnóstico valiosa que nos alerta sobre casos especiais imprevistos nos quais nossa formulação de um problema pode ser interrompida.

Em outras palavras, se a formulação do seu problema for imprecisa - se o modelo estiver errado, as estatísticas bayesianas podem ajudá-lo a descobrir que esse é o caso e a encontrar qual aspecto do modelo é a origem do problema.

Na prática, pode não estar totalmente claro qual conhecimento é relevante e se deve ser incluído na derivação. Várias técnicas de verificação de modelo (capítulos 6 e 7 em Gelman et al., 2013, fornecem uma visão geral) são então usadas para descobrir e identificar uma formulação imprecisa do problema.

Os dados foram coletados por meio de questionários, entrevistas e entrevistas. Análise de dados bayesiana, terceira edição. Chapman & Hall / CRC.

Jaynes, ET (2003). Teoria da probabilidade: a lógica da ciência. Cambridge University Press.

matus
fonte
11
Sua resposta está perdendo o objetivo e considerando uma situação mais simples. Não considero uma situação em que nosso modelo esteja tão errado que seja inconsistente com os dados. Eu olho para uma situação em que nosso modelo está errado, mas não catastroficamente. Por exemplo, considere deduzir a média do . Você pode usar um modelo gaussiano do para inferência, mesmo que o modelo real seja Laplace. Neste exemplo simples, o modelo está errado, mas não "explodirá" como o que você descreve. XiXi
precisa saber é o seguinte
11
@GuillaumeDehaene Sua pergunta foi se existem alguns argumentos para o uso de bayes quando o modelo está com erro de especificação. Claramente, o modelo catastroficamente não especificado é especificado incorretamente. Além disso, você não pode saber a priori se o seu modelo é especificado de maneira catastrófica ou apenas incorreta. De fato, os bayes podem dizer exatamente isso, o que o torna útil e minha resposta apontou isso.
Matus
Se não estiver errado na infraestrutura, a cobertura não será tão diferente de . Você pode escrever uma simulação desse modelo normal com dados do Laplaciano para verificar isso. Os benefícios conceituais sempre estariam presentes. Pense nisso: se você decidir jogar o traseiro pela janela, não computará apenas o MLE, mas também algum intervalo de confiança. Mas sabemos que a interpretação do IC calculada para UM experimento em particular é uma bobagem. Então relaxe e aproveite a cerveja bayesiana. Se você entender que o modelo está com especificação incorreta, use essas informações para criar uma melhor. 1α
Zen
@GuillaumeDehaene Sim, minha resposta não é exaustiva. É com prazer que o estendo para esclarecer casos não catastróficos, mas você precisa especificar o que tem em mente: quer dizer que em que é um número pequeno, de modo que é pequeno? Ou você está dizendo que existe tal que ainda ou algo mais? Concordo com o Zen que geralmente o posterior não será afetado muito nesses casos menos graves, embora se possa construir um caso limítrofe. p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0
Matus
5

O MLE ainda é um estimador para um parâmetro em um modelo que você especifica e supõe estar correto. Os coeficientes de regressão em um OLS freqüentista podem ser estimados com o MLE e todas as propriedades que você deseja anexar a ele (imparciais, uma variação assintótica específica) ainda assumem que seu modelo linear muito específico está correto.

Vou dar um passo adiante e dizer que toda vez que você deseja atribuir significado e propriedades a um estimador, deve assumir um modelo. Mesmo quando você obtém uma média simples de amostra, está assumindo que os dados são permutáveis ​​e, muitas vezes, IID.

Agora, os estimadores bayesianos têm muitas propriedades desejáveis ​​que um MLE pode não ter. Por exemplo, pool parcial, regularização e interpretabilidade de um posterior, o que o torna desejável em muitas situações.

TrynnaDoStat
fonte
Você não precisa assumir o IDI como um meio para dar sentido. É suficiente para assumir permutabilidade (mas, sim, isso ainda é uma suposição ...)
Kjetil b Halvorsen
@kjetil b halvorsen Obrigado, editei para maior clareza.
TrynnaDoStat
4

Eu recomendo a filosofia de Gelman & Shalizi e a prática da estatística bayesiana . Eles têm respostas coerentes, detalhadas e práticas a essas perguntas.

Pensamos que a maior parte dessa visão recebida da inferência bayesiana está errada. Os métodos bayesianos não são mais indutivos do que qualquer outro modo de inferência estatística. A análise de dados bayesianos é muito melhor compreendida de uma perspectiva hipotético-dedutiva . Implícita nas melhores práticas bayesianas é uma postura que tem muito em comum com a abordagem estatística de erros de Mayo (1996), apesar da orientação freqüentista desta última. De fato, partes cruciais da análise de dados bayesiana, como a verificação de modelos, podem ser entendidas como 'sondas de erro' no sentido de Mayo.

Prosseguimos por uma combinação de casos concretos de análise de dados bayesianos em pesquisas empíricas em ciências sociais e resultados teóricos sobre a consistência e convergência da atualização bayesiana. A análise de dados sócio-científicos é especialmente importante para nossos propósitos, porque há um consenso geral de que, nesse domínio, todos os modelos em uso estão errados - não apenas falsificáveis, mas realmente falsos. Com dados suficientes - e muitas vezes apenas uma quantidade bastante moderada - qualquer analista poderia rejeitar qualquer modelo agora em uso para qualquer nível de confiança desejado . No entanto, o ajuste do modelo é uma atividade valiosa e, de fato, o cerne da análise de dados. Para entender por que isso é assim, precisamos examinar como os modelos são construídos, ajustados, usados ​​e verificados, e os efeitos da especificação incorreta nos modelos.

...

Em nossa opinião, a descrição do último parágrafo [da visão bayesiana padrão] é crucialmente equivocada. O processo de análise de dados - bayesiano ou não - não termina com o cálculo de estimativas de parâmetros ou distribuições posteriores. Em vez disso, o modelo pode ser verificado, comparando as implicações do modelo ajustado e as evidências empíricas. Faz-se perguntas como se as simulações do modelo ajustado se assemelham aos dados originais, se o modelo ajustado é consistente com outros dados não utilizados na adaptação do modelo e se as variáveis ​​que o modelo diz serem ruído ('termos de erro') em fato exibem padrões facilmente detectáveis. Discrepâncias entre o modelo e os dados podem ser usadas para aprender sobre as maneiras pelas quais o modelo é inadequado para os propósitos científicos em questão e, assim, motivar expansões e mudanças no modelo (Seção 4.).

Alex Coventry
fonte
2

Eu acho que você está descrevendo um impacto da incerteza do modelo - você teme que sua inferência sobre um parâmetro desconhecido à luz dos dados esteja condicionada a um modelo, , bem como aos dados. E se for um modelo implausível? Se existem modelos alternativos, com o mesmo parâmetro desconhecido , é possível marginalizar a incerteza do modelo com a média do modelo bayesiano, embora isso seja um funcional dos modelos considerados e seus anteriores.xdm

p(x|d,m),
mx
p(x|d)=mp(x|d,m)p(m|d)

Se, por outro lado, a definição do parâmetro está intrinsecamente ligada ao modelo , de modo que não há alternativas, não surpreende que inferências sobre sejam condicionais em . xmxm

inocente
fonte
3
A média do modelo não pode nos salvar: ainda é tolice supor que o modelo verdadeiro de alguma forma se encaixa perfeitamente no escopo do nosso modelo maior. Com a comparação de modelos, podemos determinar qual dos vários modelos fornece a melhor conta dos dados, mas isso apenas retorna um modelo errado que é menos errado que os outros modelos.
Guillaume Dehaene
Isso pode ajudá-lo a fazer inferências / estimativas sobre uma quantidade desconhecida que incorporem coerentemente a incerteza do modelo. Porém, não pode inventar novas hipóteses para você. Se houvesse um mecanismo estatístico que inventasse modelos à luz dos dados, por exemplo, a ciência seria muito mais fácil.
Innisfree
1

Como você define o que é um modelo "mal especificado"? Isso significa que o modelo ...

  • faz previsões "ruins"?
  • não está no formato para algum "modelo verdadeiro"? pT(x)
  • está faltando um parâmetro?
  • leva a conclusões "ruins"?

Se você pensar em como um determinado modelo pode ser mal especificado, você estará basicamente extraindo informações sobre como criar um modelo melhor. Inclua essas informações extras no seu modelo!

Se você pensar sobre o que é um "modelo" na estrutura bayesiana, sempre poderá criar um modelo que não possa ser especificado incorretamente. Uma maneira de fazer isso é adicionando mais parâmetros ao seu modelo atual. Ao adicionar mais parâmetros, você torna seu modelo mais flexível e adaptável. Os métodos de aprendizado de máquina fazem pleno uso dessa idéia. Isso está subjacente a coisas como "redes nueral" e "árvores de regressão". Você precisa pensar nos antecedentes (semelhante à regularização para ML).

Por exemplo, você forneceu o "modelo linear" como exemplo, assim você tem ... Onde . Agora, suponha que adicionemos um novo parâmetro para cada observação .... Onde como antes. Como isso muda as coisas? Você poderia dizer "o modelo 1 é especificado incorretamente se o modelo 2 for verdadeiro". Mas o modelo 2 é mais difícil de estimar, pois possui muitos outros parâmetros. Além disso, se a informação sobre é com o que nos preocupamos, importa se o modelo 1 está "errado"?

model 1: xi=θ+σei
eiN(0,1)
model 2: xi=θ+σeiwi

eiN(0,1)θ

Se você assumir que (como um "modelo 2a"), basicamente teremos "erros cauchy" em vez de "erros normais" e o modelo espera discrepâncias nos dados. Portanto, adicionando parâmetros ao seu modelo e escolhendo um prior para eles, criei um "modelo mais robusto". No entanto, o modelo ainda espera simetria nos termos do erro. Ao escolher um anterior diferente, isso também pode ser considerado ...wiN(0,1)

probabilityislogic
fonte
E quanto mais parâmetros você usa, mais dados você precisa. Se as informações em sobre forem escassas, adicionar parâmetros não ajudará. Com novos dados, o DGP é ainda menos constante, então você precisa novamente de mais parâmetros e assim por diante. Quanto mais geral for o seu modelo (mais parâmetros), menor a probabilidade de ele ser "mal especificado", mas mais dados você precisará estimar. Por outro lado, quanto menos você pedir ao seu modelo, menos dados precisará. Mas isso significa que, na realidade, quão "certo" é provável o modelo se um momento posterior completo versus, digamos, um momento condicional? xf(x)
IMA