Edições: adicionei um exemplo simples: inferência da média do . Também esclareci um pouco porque os intervalos credíveis que não correspondem aos intervalos de confiança são ruins.
Eu, um bayesiano bastante devoto, estou no meio de uma espécie de crise de fé.
Meu problema é o seguinte. Suponha que eu queira analisar alguns dados de . O que eu faria é:
primeiro, proponha um modelo condicional:
Em seguida, escolha um anterior em :
Por fim, aplique a regra de Bayes, calcule a posterior: (ou alguma aproximação a ela, se for desconectável) e responda a todas as perguntas que tenho sobre
Essa é uma abordagem sensata: se o verdadeiro modelo dos dados está realmente "dentro" dos meus condicionais (corresponde a algum valor ), posso recorrer à teoria da decisão estatística para dizer que meu método é admissível (ver Robert's "A escolha bayesiana" para detalhes; "Todas as estatísticas" também fornece uma descrição clara no capítulo relevante).
No entanto, como todos sabem, supor que meu modelo esteja correto é bastante arrogante: por que a natureza deveria se encaixar perfeitamente na caixa dos modelos que eu considerei? É muito mais realista supor que o modelo real dos dados difere de para todos os valores de . Isso geralmente é chamado de modelo "mal especificado".
Meu problema é que, nesse caso mais realista e mal especificado, não tenho bons argumentos para ser bayesiano (ou seja: calcular a distribuição posterior) versus simplesmente calcular o Estimador de Máxima Verossimilhança (MLE):
De fato, de acordo com Kleijn, vd Vaart (2012) , no caso mal especificado, a distribuição posterior:
converge como para uma distribuição dirac centralizada em
não possui a variação correta (a menos que dois valores sejam iguais) para garantir que intervalos credíveis dos intervalos de correspondência posterior correspondam a . (Observe que, embora os intervalos de confiança sejam obviamente algo com que os bayesianos não se importam excessivamente, isso significa qualitativamente que a distribuição posterior está intrinsecamente errada, pois implica que seus intervalos confiáveis não têm cobertura correta)
Assim, estamos pagando um prêmio computacional (a inferência bayesiana, em geral, é mais cara que o MLE) por nenhuma propriedade adicional
Assim, finalmente, minha pergunta: existem argumentos, sejam eles teóricos ou empíricos, para usar a inferência bayesiana sobre a alternativa mais simples de MLE quando o modelo é mal especificado?
(Como sei que minhas perguntas geralmente não são claras, entre em contato se você não entender alguma coisa: tentarei reformulá-la)
Edit: vamos considerar um exemplo simples: inferir a média do sob um modelo gaussiano (com variação conhecida para simplificar ainda mais). Consideramos um prior gaussiano: denotamos a média anterior, a variação inversa do prior. Seja a média empírica do . Por fim, observe: .
A distribuição posterior é:
No caso especificado corretamente (quando o realmente tem uma distribuição gaussiana), esse posterior tem as seguintes propriedades agradáveis
Se o for gerado a partir de um modelo hierárquico no qual sua média compartilhada é escolhida na distribuição anterior, os intervalos credíveis posteriores terão cobertura exata. Dependendo dos dados, a probabilidade de estar em qualquer intervalo é igual à probabilidade que o posterior atribui a esse intervalo
Mesmo que o anterior não esteja correto, os intervalos confiáveis têm cobertura correta no limite no qual a influência anterior no posterior desaparece
o posterior tem boas propriedades freqüentistas: qualquer estimador bayesiano construído a partir do posterior é admissível, a média posterior é um estimador eficiente (no sentido de Cramer-Rao) da média, intervalos credíveis são, assintoticamente, intervalos de confiança.
No caso mal especificado, a maioria dessas propriedades não é garantida pela teoria. Para consertar idéias, vamos assumir que o modelo real para o é que elas são distribuições de Student. A única propriedade que podemos garantir (Kleijn et al) é que a distribuição posterior se concentra na média real do no limite . Em geral, todas as propriedades de cobertura desapareceriam. Pior, em geral, podemos garantir que, nesse limite, as propriedades de cobertura estejam fundamentalmente erradas: a distribuição posterior atribui a probabilidade errada a várias regiões do espaço.
fonte
Respostas:
Considero a abordagem bayesiana quando meu conjunto de dados não é tudo que se sabe sobre o assunto e quero, de alguma forma, incorporar esse conhecimento exógeno em minha previsão.
Por exemplo, meu cliente deseja uma previsão dos padrões de empréstimo em seu portfólio. Eles têm 100 empréstimos com alguns anos de dados históricos trimestrais. Houve algumas ocorrências de inadimplência (atraso no pagamento) e apenas algumas inadimplências. Se eu tentar estimar o modelo de sobrevivência nesse conjunto de dados, serão muito poucos dados para estimar e muita incerteza para prever.
Por outro lado, os gerentes de portfólio são pessoas experientes, algumas delas podem ter passado décadas gerenciando relacionamentos com mutuários. Eles têm idéias sobre como devem ser as taxas padrão. Então, eles são capazes de criar antecedentes razoáveis. Note, não os anteriores que têm boas propriedades matemáticas e parecem intelectualmente atraentes para mim . Conversarei com eles e extrairei suas experiências e conhecimentos na forma desses anteriores.
Agora, a estrutura bayesiana me fornecerá mecânica para casar o conhecimento exógeno na forma de anteriores com os dados e obter o posterior superior ao julgamento qualitativo puro e à previsão orientada a dados puros, na minha opinião. Isso não é uma filosofia e eu não sou bayesiano. Estou apenas usando as ferramentas bayesianas para incorporar consistentemente o conhecimento especializado na estimativa baseada em dados.
fonte
Uma pergunta muito interessante ... que pode não ter uma resposta (mas que não a torna menos interessante!)
Algumas reflexões (e muitos links para as entradas do meu blog!) Sobre esse meme de que todos os modelos estão errados :
fonte
Edições: adicionada referência a este documento no corpo, conforme solicitado pelo OP.
Estou dando uma resposta como um bayesiano empírico ingênuo aqui.
Primeiro, a distribuição posterior permite fazer cálculos que você simplesmente não pode fazer com um MLE direto. O caso mais simples é que o posterior de hoje é o anterior de amanhã . A inferência bayesiana naturalmente permite atualizações seqüenciais, ou mais, em geral, combinação on-line ou atrasada de várias fontes de informação (incorporar uma prévia é apenas uma instância de livro didático dessa combinação). A teoria da decisão bayesiana com uma função de perda não trivial é outro exemplo. Eu não saberia o que fazer de outra maneira.
Segundo, com esta resposta, tentarei argumentar que o mantra de que a quantificação da incerteza é geralmente melhor do que nenhuma incerteza é efetivamente uma questão empírica, uma vez que os teoremas (como você mencionou e até onde eu sei) não fornecem garantias.
Otimização como modelo de brinquedo do esforço científico
Um domínio que sinto capturar completamente a complexidade do problema é muito prático e sem sentido, a otimização de uma função de caixa preta . Assumimos que podemos consultar sequencialmente um ponto e obter uma observação possivelmente ruidosa , com . Nosso objetivo é chegar o mais próximo possível de com o número mínimo de avaliações de funções.f:X⊂RD→R x∈X y=f(x)+ε ε∼N(0,σ2) x∗=argminxf(x)
Uma maneira particularmente eficaz de proceder, como você pode esperar, é criar um modelo preditivo do que aconteceria se eu consultar qualquer e usar essas informações para decidir o que fazer em seguida ( local ou globalmente). Consulte Rios e Sahinidis (2013) para uma revisão dos métodos de otimização global sem derivativos. Quando o modelo é suficientemente complexo, isso é chamado de meta-modelo ou função substituta ou abordagem da superfície de resposta . Fundamentalmente, o modelo pode ser uma estimativa pontual de (por exemplo, o ajuste de uma função de rede de base radial às nossas observações), ou podemos ser bayesianos e, de alguma forma, obter uma distribuição posterior completa sobrex′∈X f f (por exemplo, através de um processo gaussiano).
Otimização Bayesiana utiliza a posterior sobre (em particular, a posterior condicional conjunta média e variância em qualquer ponto) para orientar a busca do ótimo (global) através de algum heurística princípios. A escolha clássica é maximizar a melhoria esperada sobre o melhor ponto atual, mas existem métodos ainda mais sofisticados, como minimizar a entropia esperada sobre a localização do mínimo (veja também aqui ).f
O resultado empírico aqui é que ter acesso a um posterior, mesmo que parcialmente especificado incorretamente, geralmente produz melhores resultados do que outros métodos. (Existem advertências e situações nas quais a otimização bayesiana não é melhor que a pesquisa aleatória, como em altas dimensões.) Neste artigo , realizamos uma avaliação empírica de um novo método de BO versus outros algoritmos de otimização, verificando se o uso de BO é conveniente na prática, com resultados promissores.
Desde que você perguntou - isso tem um custo computacional muito mais alto do que outros métodos não bayesianos, e você estava se perguntando por que deveríamos ser bayesianos. A suposição aqui é que o custo envolvido na avaliação do verdadeiro (por exemplo, em um cenário real, um complexo complexo de engenharia ou experimento de aprendizado de máquina) é muito maior que o custo computacional para a análise bayesiana, portanto, o bayesiano compensa .f
O que podemos aprender com esse exemplo?
Primeiro, por que a otimização bayesiana funciona? Acho que o modelo está errado, mas não tão errado, e, como sempre, o erro depende de qual é o seu modelo. Por exemplo, a forma exata de não é relevante para a otimização, pois poderíamos otimizar qualquer transformação monotônica. Eu acho que a natureza está cheia de tais invariâncias. Portanto, a pesquisa que estamos fazendo pode não ser ótima (ou seja, estamos descartando boas informações), mas ainda melhor do que sem informações sobre incertezas.f
Segundo, nosso exemplo destaca que é possível que a utilidade de ser bayesiano ou não dependa do contexto , por exemplo, o custo relativo e a quantidade de recursos disponíveis (computacionais). (Obviamente, se você é um bayesiano incondicional, acredita que todo cálculo é inferência bayesiana sob alguma prévia e / ou aproximação.)
Finalmente, a grande questão é: por que os modelos que usamos não são tão ruins, afinal, no sentido de que os posteriores ainda são úteis e não são lixo estatístico? Se adotarmos o teorema do almoço grátis, aparentemente não poderíamos dizer muito, mas felizmente não vivemos em um mundo de funções completamente aleatórias (ou escolhidas pelo adversário ).
Mais em geral, desde que você colocou a etiqueta "filosófica" ... Acho que estamos entrando no reino do problema da indução ou da eficácia irracional da matemática nas ciências estatísticas (especificamente, da nossa intuição matemática e capacidade de especificar modelos que funcionam na prática) - no sentido de que, do ponto de vista puramente a priori, não há razão para que nossas suposições sejam boas ou tenham alguma garantia (e com certeza você pode criar contra-exemplos matemáticos nos quais as coisas dão errado), mas elas trabalhar bem na prática.
fonte
Eu só vejo isso hoje, mas ainda acho que devo me interessar, já que sou um especialista e que pelo menos duas respostas (nºs 3 e 20 (obrigado por se referir ao meu trabalho Xi'an!)) Mencionam meu trabalho em SafeBayes - em particular G. e van Ommen, "Inconsistência de inferência bayesiana para modelos lineares não especificados e uma proposta para repará-lo" (2014). E eu também gostaria de adicionar algo para comentar 2:
2 diz: (uma vantagem de Bayes sob especificação incorreta é ...) "Bem, as abordagens bayesianas se regularizam. Isso é algo para ajudar a evitar o ajuste excessivo - independentemente de seu modelo ser ou não especificado. Claro, isso apenas leva à pergunta relacionada sobre argumentos para a inferência bayesiana contra abordagens clássicas regularizadas (laço etc.) "
Isso é verdade, mas é crucial acrescentar que as abordagens bayesianas podem não regularizar o suficiente se o modelo estiver errado. Este é o ponto principal do trabalho com Van Ommen - vemos lá que Bayes padrão se adapta terrivelmente em algum contexto de regressão a modelos errados, mas muito úteis. Não é tão ruim quanto o MLE, mas ainda é demais para ser útil. Há todo um trabalho no aprendizado de máquina teórico (freqüentista e teórico dos jogos), onde eles usam métodos semelhantes ao Bayes, mas com uma 'taxa de aprendizado' muito menor - tornando o anterior mais e os dados menos importantes, regularizando mais. Esses métodos foram projetados para funcionar bem em situações de pior caso (especificação incorreta e, pior ainda, dados contraditórios) - a abordagem SafeBayes foi projetada para 'aprender a taxa de aprendizado ideal' com os próprios dados - e essa taxa de aprendizado ideal, ou seja, a quantidade ideal de regularização,
De maneira semelhante, existe um teorema popular (mencionado por vários acima) dizendo que Bayes terá o concentrado posterior na distribuição mais próxima da divergência de KL em relação à 'verdade'. Mas isso é válido apenas em condições muito rigorosas - MUITO mais rigorosas do que as condições necessárias para a convergência no caso bem especificado. Se você estiver lidando com modelos paramétricos de baixa dimensão padrão e os dados estiverem de acordo com alguma distribuição (não no modelo), o posterior realmente se concentrará em torno do ponto no modelo mais próximo da verdade na divergência de KL. Agora, se você estiver lidando com grandes modelos não paramétricos e o modelo estiver correto, (essencialmente) seu posterior ainda se concentrará em torno da verdadeira distribuição, com dados suficientes, desde que o seu anterior coloque massa suficiente em pequenas bolas de KL em torno da verdadeira distribuição. Isto é ocondição fraca necessária para convergência no caso não paramétrico, se o modelo estiver correto.
Mas se o seu modelo não é paramétrico e está incorreto, o posterior pode simplesmente não se concentrar em torno do ponto KL mais próximo, mesmo se o seu anterior coloca massa perto de 1 (!) Lá - o posterior pode permanecer confuso para sempre, concentrando-se em distribuições sempre diferentes à medida que o tempo avança, mas nunca em torno do melhor. Nos meus trabalhos, tenho vários exemplos disso. Os documentos que mostram convergência sob especificação incorreta (por exemplo, Kleijn e van der Vaart) exigem muitas condições adicionais, por exemplo, o modelo deve ser convexo ou o anterior deve obedecer a certas propriedades (complicadas). É isso que quero dizer com condições "rigorosas".
Na prática, frequentemente lidamos com modelos paramétricos, mas com dimensões muito altas (pense em regressão bayesiana de crista etc.). Então, se o modelo estiver errado, eventualmente o seu posterior se concentrará na melhor distribuição KL do modelo, mas uma mini-versão da inconsistência não paramétrica ainda se mantém: pode ser necessário mais pedidos de magnitude antes que a convergência aconteça - novamente, meu artigo com Van Ommen dá exemplos.
A abordagem SafeBayes modifica os bayes padrão de forma a garantir a convergência em modelos não paramétricos sob (essencialmente) as mesmas condições do caso bem especificado, ou seja, massa anterior suficiente próxima à distribuição ideal de KL no modelo (G. e Mehta, 2014 )
Depois, há a questão de saber se Bayes tem justificativa sob especificação incorreta. IMHO (e como também mencionado por várias pessoas acima), as justificativas padrão de Bayes (admissibilidade, Savage, De Finetti, Cox etc.) não são válidas aqui (porque se você perceber que seu modelo está com especificação incorreta, suas probabilidades não representam suas verdadeiras crenças !). No entanto, muitos métodos Bayes também podem ser interpretados como 'métodos de comprimento mínimo de descrição (MDL)' - MDL é um método teórico da informação que iguala 'aprender com os dados' com 'tentar compactar os dados o máximo possível'. Essa interpretação da compressão de dados de (alguns) métodos bayesianos permanece válida sob especificação incorreta. Então ainda háinterpretação subjacente que se sustenta sob especificação incorreta - no entanto, existem problemas, como mostra meu artigo com van Ommen (e o intervalo de confiança / problema de conjunto credível mencionado no post original).
E então uma observação final sobre o post original: você menciona a justificativa de 'admissibilidade' de Bayes (voltando à aula completa de Wald na década de 1940/50). Se isso é realmente uma justificativa de Bayes, depende realmente muito da definição precisa de 'inferência bayesiana' (que difere de pesquisador para pesquisador ...). A razão é que esses resultados de admissibilidade permitem a possibilidade de usar um prior que depende de aspectos do problema, como tamanho da amostra e função de perda de interesse, etc. dados eles precisam processar alterações ou se a função de perda de interesse for alterada repentinamente. Por exemplo, com funções de perda estritamente convexas, os estimadores de minimax também são admissíveis - embora geralmente não sejam considerados bayesianos! O motivo é que, para cada tamanho fixo de amostra, eles são equivalentes a Bayes com um prior em particular, mas o prior é diferente para cada tamanho de amostra.
Espero que isso seja útil!
fonte
Existe o tradeoff de variação de polarização usual. A inferência bayesiana assumindo o caso fechado por M [1,2] apresenta uma variação menor [3], mas no caso de erros de especificação do modelo, o viés cresce mais rapidamente [4]. Também é possível fazer inferência bayesiana assumindo o caso M-aberto [1,2], que apresenta uma variação maior [3], mas no caso de erros de especificação do modelo, o viés é menor [4]. Dicussões sobre essa troca de viés entre os casos Bayesian M-closed e M-open também aparecem em algumas das referências incluídas nas referências abaixo, mas há claramente a necessidade de mais.
[1] Bernardo e Smith (1994). Teoria Bayesiana. John Wiley e filhos.
[2] Vehtari e Ojanen (2012). Uma pesquisa de métodos preditivos bayesianos para avaliação, seleção e comparação de modelos. Statistics Surveys, 6: 142-228. http://dx.doi.org/10.1214/12-SS102
[3] Juho Piironen e Aki Vehtari (2017). Comparação de métodos preditivos bayesianos para seleção de modelos. Statistics and Computing, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .
[4] Yao, Vehtari, Simpson e Andrew Gelman (2017). Usando empilhamento para distribuir preditivas bayesianas médias. pré-impressão do arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030
fonte
Aqui estão algumas outras maneiras de justificar a inferência bayesiana em modelos não especificados.
Você pode construir um intervalo de confiança na média posterior, usando a fórmula sanduíche (da mesma maneira que faria com o MLE). Portanto, mesmo que os conjuntos credíveis não tenham cobertura, você ainda pode produzir intervalos de confiança válidos nos estimadores de pontos, se é nisso que está interessado.
Você pode redimensionar a distribuição posterior para garantir que conjuntos confiáveis tenham cobertura, que é a abordagem adotada em:
Müller, Ulrich K. "Risco de inferência bayesiana em modelos não especificados e a matriz de covariância sanduíche". Econometrica 81,5 (2013): 1805-1849.
fonte
A interpretação bayesiana dessa suposição é que existe uma variável aleatória adicional e um valor em seu intervalo modo que . Seu conhecimento prévio diz e . Então que não é uma distribuição de probabilidade adequada.ϕ ϕ0 ϕ0 ∫p(X|θ,ϕ=ϕ0)dθ=0 p(ϕ=ϕ0)∝1 p(ϕ≠ϕ0)=0 p(θ|X,ϕ=ϕ0)=0
Este caso corresponde a uma regra de inferência semelhante na lógica em que , ou seja, você não pode deduzir nada de uma contradição. O resultado é uma maneira pela qual a teoria das probabilidades bayesianas diz que seu conhecimento prévio não é consistente com seus dados. Se alguém não conseguiu obter esse resultado na derivação do posterior, significa que a formulação falhou em codificar todo o conhecimento prévio relevante. Quanto à avaliação dessa situação, entrego a Jaynes (2003, p.41):A,¬A⊢∅ p(θ|X,ϕ=ϕ0)=0
Em outras palavras, se a formulação do seu problema for imprecisa - se o modelo estiver errado, as estatísticas bayesianas podem ajudá-lo a descobrir que esse é o caso e a encontrar qual aspecto do modelo é a origem do problema.
Na prática, pode não estar totalmente claro qual conhecimento é relevante e se deve ser incluído na derivação. Várias técnicas de verificação de modelo (capítulos 6 e 7 em Gelman et al., 2013, fornecem uma visão geral) são então usadas para descobrir e identificar uma formulação imprecisa do problema.
Os dados foram coletados por meio de questionários, entrevistas e entrevistas. Análise de dados bayesiana, terceira edição. Chapman & Hall / CRC.
Jaynes, ET (2003). Teoria da probabilidade: a lógica da ciência. Cambridge University Press.
fonte
O MLE ainda é um estimador para um parâmetro em um modelo que você especifica e supõe estar correto. Os coeficientes de regressão em um OLS freqüentista podem ser estimados com o MLE e todas as propriedades que você deseja anexar a ele (imparciais, uma variação assintótica específica) ainda assumem que seu modelo linear muito específico está correto.
Vou dar um passo adiante e dizer que toda vez que você deseja atribuir significado e propriedades a um estimador, deve assumir um modelo. Mesmo quando você obtém uma média simples de amostra, está assumindo que os dados são permutáveis e, muitas vezes, IID.
Agora, os estimadores bayesianos têm muitas propriedades desejáveis que um MLE pode não ter. Por exemplo, pool parcial, regularização e interpretabilidade de um posterior, o que o torna desejável em muitas situações.
fonte
Eu recomendo a filosofia de Gelman & Shalizi e a prática da estatística bayesiana . Eles têm respostas coerentes, detalhadas e práticas a essas perguntas.
fonte
Eu acho que você está descrevendo um impacto da incerteza do modelo - você teme que sua inferência sobre um parâmetro desconhecido à luz dos dados esteja condicionada a um modelo, , bem como aos dados. E se for um modelo implausível? Se existem modelos alternativos, com o mesmo parâmetro desconhecido , é possível marginalizar a incerteza do modelo com a média do modelo bayesiano, embora isso seja um funcional dos modelos considerados e seus anteriores.x d m
Se, por outro lado, a definição do parâmetro está intrinsecamente ligada ao modelo , de modo que não há alternativas, não surpreende que inferências sobre sejam condicionais em .x m x m
fonte
Como você define o que é um modelo "mal especificado"? Isso significa que o modelo ...
Se você pensar em como um determinado modelo pode ser mal especificado, você estará basicamente extraindo informações sobre como criar um modelo melhor. Inclua essas informações extras no seu modelo!
Se você pensar sobre o que é um "modelo" na estrutura bayesiana, sempre poderá criar um modelo que não possa ser especificado incorretamente. Uma maneira de fazer isso é adicionando mais parâmetros ao seu modelo atual. Ao adicionar mais parâmetros, você torna seu modelo mais flexível e adaptável. Os métodos de aprendizado de máquina fazem pleno uso dessa idéia. Isso está subjacente a coisas como "redes nueral" e "árvores de regressão". Você precisa pensar nos antecedentes (semelhante à regularização para ML).
Por exemplo, você forneceu o "modelo linear" como exemplo, assim você tem ... Onde . Agora, suponha que adicionemos um novo parâmetro para cada observação .... Onde como antes. Como isso muda as coisas? Você poderia dizer "o modelo 1 é especificado incorretamente se o modelo 2 for verdadeiro". Mas o modelo 2 é mais difícil de estimar, pois possui muitos outros parâmetros. Além disso, se a informação sobre é com o que nos preocupamos, importa se o modelo 1 está "errado"?
Se você assumir que (como um "modelo 2a"), basicamente teremos "erros cauchy" em vez de "erros normais" e o modelo espera discrepâncias nos dados. Portanto, adicionando parâmetros ao seu modelo e escolhendo um prior para eles, criei um "modelo mais robusto". No entanto, o modelo ainda espera simetria nos termos do erro. Ao escolher um anterior diferente, isso também pode ser considerado ...wi∼N(0,1)
fonte