Ok, essa é uma pergunta que me mantém acordada à noite.
O procedimento de autoinicialização pode ser interpretado como aproximando algum procedimento bayesiano (exceto o autoinformática bayesiano)?
Gosto muito da "interpretação" bayesiana das estatísticas que considero bem coerente e fácil de entender. No entanto, eu também tenho uma fraqueza pelo procedimento de inicialização, que é tão simples, mas que fornece inferências razoáveis em muitas situações. Eu ficaria mais feliz com o bootstrapping, no entanto, se soubesse que o bootstrap estava se aproximando de uma distribuição posterior em algum sentido.
Conheço o "bootstrap bayesiano" (Rubin, 1981), mas, da minha perspectiva, essa versão do bootstrap é tão problemática quanto o bootstrap padrão. O problema é a suposição de modelo realmente peculiar que você faz, tanto ao executar o bootstrap clássico quanto o bayesiano, ou seja, os possíveis valores da distribuição são apenas os valores que eu já vi. Como essas suposições de modelos estranhos ainda podem gerar inferências razoáveis que os procedimentos de autoinicialização produzem? Eu tenho procurado artigos que investigaram as propriedades do bootstrap (por exemplo, Weng, 1989), mas não encontrei nenhuma explicação clara com a qual estou feliz.
Referências
Donald B. Rubin (1981). O bootstrap bayesiano. Ann. Statist. Volume 9, Número 1, 130-134.
Chung-Sing Weng (1989). Em uma propriedade assintótica de segunda ordem da média bayesiana de bootstrap. Os Anais de Estatística , vol. 17, No. 2, pp. 705-710.
Respostas:
A seção 8.4 dos elementos de aprendizagem estatística de Hastie, Tibshirani e Friedman é "Relação entre o bootstrap e a inferência bayesiana". Isso pode ser exatamente o que você está procurando. Acredito que este livro esteja disponível gratuitamente no site de Stanford, embora eu não tenha o link em mãos.
Editar:
Aqui está um link para o livro, que os autores disponibilizaram gratuitamente on-line:
http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Na página 272, os autores escrevem:
Mais uma peça do quebra-cabeça é encontrada nesta pergunta validada que menciona a desigualdade de Dvoretzky – Kiefer – Wolfowitz que "mostra [...] que a função de distribuição empírica converge uniformemente para a verdadeira função de distribuição exponencialmente rápida em probabilidade".
Portanto, todo o bootstrap não paramétrico pode ser visto como um método assintótico que produz "uma distribuição posterior não paramétrica e não informativa (aproximada) para o nosso parâmetro" e onde essa aproximação fica melhor "exponencialmente rápida" à medida que o número de amostras aumenta.
fonte
Este é o artigo mais recente que eu vi sobre o assunto:
fonte
Eu também fui seduzido pelo bootstrapping e pelo teorema de Bayes, mas não consegui entender muito bem as justificativas do bootstrapping até olhar para ele de uma perspectiva bayesiana. Então - como explico abaixo - a distribuição de bootstrap pode ser vista como uma distribuição posterior bayesiana, o que torna óbvia a (a?) Lógica por trás do bootstrapping e também teve a vantagem de esclarecer as suposições feitas. Há mais detalhes do argumento abaixo e das suposições feitas em https://arxiv.org/abs/1803.06214 (páginas 22-26).
Como exemplo, configurado na planilha em http://woodm.myweb.port.ac.uk/SL/resample.xlsx (clique na guia de auto-inicialização na parte inferior da tela), suponha que tenhamos uma amostra de 9 medidas com média de 60. Quando usei a planilha para produzir 1000 reamostragens com substituição dessa amostra e arredondar as médias para o número par mais próximo, 82 dessas médias eram 54. A idéia do bootstrap é que use a amostra como uma população "fingida" para ver qual a probabilidade de as médias das amostras 9 serem, portanto, isso sugere que a probabilidade de uma média amostral ser 6 abaixo da média populacional (nesse caso, a população fingida baseada no amostra com média de 60) é de 8,2%. E podemos chegar a uma conclusão semelhante sobre as outras barras no histograma de reamostragem.
Agora vamos imaginar que a verdade é que a média da população real é 66. Se é assim, nossa estimativa da probabilidade da amostra ser 60 (isto é, os dados) é de 8,2% (usando a conclusão no parágrafo acima, lembrando 60 é 6 abaixo da média da população estimada em 66). Vamos escrever isso como
P (Dados dados Média = 66) = 8,2%
e essa probabilidade corresponde a um valor x de 54 na distribuição de reamostragem. O mesmo tipo de argumento se aplica a cada média possível de população de 0, 2, 4 ... 100. Em cada caso, a probabilidade vem da distribuição de reamostragem - mas essa distribuição é refletida sobre a média de 60.
Agora vamos aplicar o teorema de Bayes. A medida em questão só pode assumir valores entre 0 e 100, portanto, arredondando para o número par mais próximo, as possibilidades para a média da população são 0, 2, 4, 6, .... 100. Se assumirmos que a distribuição anterior é plana, cada uma delas tem uma probabilidade anterior de 2% (para 1 dp), e o teorema de Bayes nos diz que
P (PopMean = 66 dados fornecidos) = 8,2% * 2% / P (dados)
Onde
P (Dados) = P (PopMean = 0 dado) * 2% + P (PopMean = 2 dado) * 2% + ... + P (PopMean = 100 dado) * 2%
Agora podemos cancelar os 2% e lembrar que a soma das probabilidades deve ser 1, pois as probabilidades são simplesmente as da distribuição de reamostragem. O que nos deixa com a conclusão de que
P (PopMean = 66) = 8,2%
Lembrando que 8,2% é a probabilidade da distribuição de reamostragem correspondente a 54 (em vez de 66), a distribuição posterior é simplesmente a distribuição de reamostragem refletida sobre a média da amostra (60). Além disso, se a distribuição de reamostragem for simétrica no sentido de que as assimetrias são aleatórias - como é neste e em muitos outros casos, podemos considerar a distribuição de reamostragem como idêntica à distribuição de probabilidade posterior.
Este argumento faz várias suposições, a principal delas é que a distribuição anterior é uniforme. Estes estão detalhados no artigo citado acima.
fonte