Ao ler sobre como aproximar a distribuição da amostra, me deparei com o método de inicialização não paramétrico. Aparentemente, pode-se aproximar a distribuição de pela distribuição de ˉ X ∗ n - ˉ X n , onde ˉ X ∗ n denota a média da amostra da amostra de bootstrap.
Minha pergunta então é: eu preciso da centralização? Pelo que?
Eu não poderia apenas aproximar por P ( ˉ X ∗ n ≤ x ) ?
distributions
bootstrap
resampling
centering
Christin
fonte
fonte
Respostas:
Sim, você pode aproximar por P ( ˉ X ∗ n ≤ x ), mas não é o ideal. Essa é uma forma de autoinicialização de percentil. No entanto, o bootstrap de percentil não terá um bom desempenho se você estiver tentando fazer inferências sobre a população, a menos que você tenha um tamanho de amostra grande. (Ele funciona bem com muitos outros problemas de inferência, inclusive quando o tamanho da amostra é pequeno.) Eu tomo esta conclusão das Estatísticas Modernas de Wilcox para as Ciências Sociais e ComportamentaisP ( X¯n≤ x ) P ( X¯∗n≤ x ) , CRC Press, 2012. Uma prova teórica está além de mim, receio. .
Uma variante da abordagem de centralização vai para o próximo passo e dimensiona sua estatística de autoinicialização centralizada com o desvio padrão da amostra e o tamanho da amostra, calculando da mesma maneira que na estatística. Os quantis da distribuição dessas estatísticas t podem ser usados para construir um intervalo de confiança ou realizar um teste de hipótese. Este é o método bootstrap-t e fornece resultados superiores ao fazer inferências sobre a média.
Deixeis∗
Considere os resultados da simulação abaixo, mostrando que, com uma distribuição mista mal distorcida, os intervalos de confiança desse método contêm o valor verdadeiro com mais frequência do que o método de autoinicialização por percentil ou uma inversão tradicional da estatística sem autoinicialização.
Isso fornece o seguinte (conf.t é o método de autoinicialização t; conf.p é o método de autoinicialização por percentil).
Com um único exemplo de uma distribuição distorcida:
Isso fornece o seguinte. Observe que "conf.t" - a versão bootstrap t - oferece um intervalo de confiança mais amplo que os outros dois. Basicamente, é melhor responder à distribuição incomum da população.
Finalmente, aqui estão milhares de simulações para ver qual versão fornece intervalos de confiança mais frequentemente corretos:
Isso fornece os resultados abaixo - os números são os tempos em mil em que o intervalo de confiança contém o valor real de uma população simulada. Observe que a verdadeira taxa de sucesso de todas as versões é consideravelmente menor que 95%.
fonte