É possível interpretar o bootstrap de uma perspectiva bayesiana?

43

Ok, essa é uma pergunta que me mantém acordada à noite.

O procedimento de autoinicialização pode ser interpretado como aproximando algum procedimento bayesiano (exceto o autoinformática bayesiano)?

Gosto muito da "interpretação" bayesiana das estatísticas que considero bem coerente e fácil de entender. No entanto, eu também tenho uma fraqueza pelo procedimento de inicialização, que é tão simples, mas que fornece inferências razoáveis ​​em muitas situações. Eu ficaria mais feliz com o bootstrapping, no entanto, se soubesse que o bootstrap estava se aproximando de uma distribuição posterior em algum sentido.

Conheço o "bootstrap bayesiano" (Rubin, 1981), mas, da minha perspectiva, essa versão do bootstrap é tão problemática quanto o bootstrap padrão. O problema é a suposição de modelo realmente peculiar que você faz, tanto ao executar o bootstrap clássico quanto o bayesiano, ou seja, os possíveis valores da distribuição são apenas os valores que eu já vi. Como essas suposições de modelos estranhos ainda podem gerar inferências razoáveis ​​que os procedimentos de autoinicialização produzem? Eu tenho procurado artigos que investigaram as propriedades do bootstrap (por exemplo, Weng, 1989), mas não encontrei nenhuma explicação clara com a qual estou feliz.

Referências

Donald B. Rubin (1981). O bootstrap bayesiano. Ann. Statist. Volume 9, Número 1, 130-134.

Chung-Sing Weng (1989). Em uma propriedade assintótica de segunda ordem da média bayesiana de bootstrap. Os Anais de Estatística , vol. 17, No. 2, pp. 705-710.

Rasmus Bååth
fonte
3
Acabei de escrever uma postagem no blog "o bootstrap como modelo bayesiano" ( sumsar.net/blog/2015/04/… ) que explora as "explicações" bayesianas do bootstrap. Ele não responde diretamente às perguntas acima, mas espero que fique mais claro o que é o bootstrap e o que ele faz.
Rasmus Bååth
Leia técnicas de inferência preditiva não paramétrica bayesiana de muliere e secchi (1996) e técnicas de autoinicialização. Thay aborda exatamente o seu ponto!

Respostas:

30

A seção 8.4 dos elementos de aprendizagem estatística de Hastie, Tibshirani e Friedman é "Relação entre o bootstrap e a inferência bayesiana". Isso pode ser exatamente o que você está procurando. Acredito que este livro esteja disponível gratuitamente no site de Stanford, embora eu não tenha o link em mãos.

Editar:

Aqui está um link para o livro, que os autores disponibilizaram gratuitamente on-line:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

Na página 272, os autores escrevem:

Nesse sentido, a distribuição de bootstrap representa uma distribuição posterior não paramétrica e não informativa (aproximada) para o nosso parâmetro. Mas essa distribuição de bootstrap é obtida sem dor - sem a necessidade de especificar formalmente uma prévia e sem a amostragem da distribuição posterior. Por isso, podemos pensar na distribuição de bootstrap como posterior de Bayes do "homem pobre". Ao perturbar os dados, o bootstrap se aproxima do efeito bayesiano de perturbar os parâmetros e normalmente é muito mais simples de executar.

Mais uma peça do quebra-cabeça é encontrada nesta pergunta validada que menciona a desigualdade de Dvoretzky – Kiefer – Wolfowitz que "mostra [...] que a função de distribuição empírica converge uniformemente para a verdadeira função de distribuição exponencialmente rápida em probabilidade".

Portanto, todo o bootstrap não paramétrico pode ser visto como um método assintótico que produz "uma distribuição posterior não paramétrica e não informativa (aproximada) para o nosso parâmetro" e onde essa aproximação fica melhor "exponencialmente rápida" à medida que o número de amostras aumenta.

EdM
fonte
3
Embora sempre apreciemos as referências ao material relevante, essa resposta seria muito melhorada se um breve resumo dessa seção fosse incluído.
cardeal
1
O último bit dessa seção pode ser mais útil: O bootstrap é uma distribuição posterior não paramétrica e não informativa aproximada para o parâmetro estimado. A seção inteira vale uma leitura.
Fraijo
2
Obrigado pelo link! Se eu ler Hastie et al. à direita, eles mostram uma correspondência entre o boostrap não paramétrico e o bootstrap bayesiano e afirma que o primeiro se aproxima do último. Eles não escrevem muito sobre por que o bootstrap (bayesiano ou não) resulta em inferências sensatas em primeiro lugar. O que eu esperava era algo como: "Sob [algumas circunstâncias gerais] o bootstrap aproxima a verdadeira distribuição posterior do parâmetro / estatística com um erro que é [algo] e que depende [disso e daquilo]".
Rasmus Bååth
Obrigado pela ajuda para melhorar minha resposta. A explicação mais clara que ouvi sobre por que o bootstrap funciona é que a amostra que você acabou de coletar é a melhor representação que você tem da população em geral. Mas não sou probabilista suficiente para colocar isso de maneira mais formal.
EdM
Se bem me lembro, eles argumentam, iniciam um NN e passam a receber um NN totalmente Bayesiano de Radford Neal. Eu acho que isso diz alguma coisa, mas não sei o que.
cara
3

Este é o artigo mais recente que eu vi sobre o assunto:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}
Frank Harrell
fonte
2
Minha interpretação do artigo é que ele descreve um método de inicialização para calcular a distribuição posterior de um modelo especificado, que é um método que pode ser usado em vez de, por exemplo, amostragem de metrópoles. Não vejo que o artigo discute a conexão entre os não-paramétricos pressupostos do modelo de bootstrap e estimativa Bayesiana ...
Rasmus Baath
1
Alega fazer isso. Não li o jornal em detalhes.
precisa
5
Frank: Eu não saí muito lendo este artigo de Efron - o que ele faz pode ser visto apenas como um amostrador de importância sequencial que começa com a probabilidade e tenta chegar ao posterior (que geralmente funciona). O objetivo de Rubin no artigo de 1981 era questionar a adequação do bootstrap, mas Efron aparentemente alcançou a visão oposta. David Draper a reviu neste verão em seu curso JSM e concluiu ruim, exceto quando você vê a maioria das possibilidades na amostra. Mas veja aqui normaldeviate.wordpress.com/2013/06/12/…
phaneron
1

Eu também fui seduzido pelo bootstrapping e pelo teorema de Bayes, mas não consegui entender muito bem as justificativas do bootstrapping até olhar para ele de uma perspectiva bayesiana. Então - como explico abaixo - a distribuição de bootstrap pode ser vista como uma distribuição posterior bayesiana, o que torna óbvia a (a?) Lógica por trás do bootstrapping e também teve a vantagem de esclarecer as suposições feitas. Há mais detalhes do argumento abaixo e das suposições feitas em https://arxiv.org/abs/1803.06214 (páginas 22-26).

Como exemplo, configurado na planilha em http://woodm.myweb.port.ac.uk/SL/resample.xlsx (clique na guia de auto-inicialização na parte inferior da tela), suponha que tenhamos uma amostra de 9 medidas com média de 60. Quando usei a planilha para produzir 1000 reamostragens com substituição dessa amostra e arredondar as médias para o número par mais próximo, 82 dessas médias eram 54. A idéia do bootstrap é que use a amostra como uma população "fingida" para ver qual a probabilidade de as médias das amostras 9 serem, portanto, isso sugere que a probabilidade de uma média amostral ser 6 abaixo da média populacional (nesse caso, a população fingida baseada no amostra com média de 60) é de 8,2%. E podemos chegar a uma conclusão semelhante sobre as outras barras no histograma de reamostragem.

Agora vamos imaginar que a verdade é que a média da população real é 66. Se é assim, nossa estimativa da probabilidade da amostra ser 60 (isto é, os dados) é de 8,2% (usando a conclusão no parágrafo acima, lembrando 60 é 6 abaixo da média da população estimada em 66). Vamos escrever isso como

P (Dados dados Média = 66) = 8,2%

e essa probabilidade corresponde a um valor x de 54 na distribuição de reamostragem. O mesmo tipo de argumento se aplica a cada média possível de população de 0, 2, 4 ... 100. Em cada caso, a probabilidade vem da distribuição de reamostragem - mas essa distribuição é refletida sobre a média de 60.

Agora vamos aplicar o teorema de Bayes. A medida em questão só pode assumir valores entre 0 e 100, portanto, arredondando para o número par mais próximo, as possibilidades para a média da população são 0, 2, 4, 6, .... 100. Se assumirmos que a distribuição anterior é plana, cada uma delas tem uma probabilidade anterior de 2% (para 1 dp), e o teorema de Bayes nos diz que

P (PopMean = 66 dados fornecidos) = 8,2% * 2% / P (dados)

Onde

P (Dados) = P (PopMean = 0 dado) * 2% + P (PopMean = 2 dado) * 2% + ... + P (PopMean = 100 dado) * 2%

Agora podemos cancelar os 2% e lembrar que a soma das probabilidades deve ser 1, pois as probabilidades são simplesmente as da distribuição de reamostragem. O que nos deixa com a conclusão de que

P (PopMean = 66) = 8,2%

Lembrando que 8,2% é a probabilidade da distribuição de reamostragem correspondente a 54 (em vez de 66), a distribuição posterior é simplesmente a distribuição de reamostragem refletida sobre a média da amostra (60). Além disso, se a distribuição de reamostragem for simétrica no sentido de que as assimetrias são aleatórias - como é neste e em muitos outros casos, podemos considerar a distribuição de reamostragem como idêntica à distribuição de probabilidade posterior.

Este argumento faz várias suposições, a principal delas é que a distribuição anterior é uniforme. Estes estão detalhados no artigo citado acima.

Michael Wood
fonte
Existe algo como um bootstrap bayesiano que foi introduzido por Rubin. Mas acho que não é a isso que você está se referindo. O bootstrap comum, introduzido por Efron, é realmente um conceito frequentista.
Michael Chernick