Afirma-se frequentemente que o bootstrapping pode fornecer uma estimativa do viés em um estimador.
Se é a estimativa de alguma estatística e são as réplicas de autoinicialização (com ), a estimativa de autoinicialização do viés é que parece extremamente simples e poderosa, a ponto de ser perturbadora. ~ t ii∈{1,⋯,N}biumst≈1
Não consigo entender como isso é possível sem ter um estimador imparcial da estatística. Por exemplo, se meu estimador simplesmente retornar uma constante independente das observações, a estimativa de viés acima será claramente inválida.
Embora este exemplo seja patológico, não consigo ver quais são as suposições razoáveis sobre o estimador e as distribuições que garantirão que a estimativa de autoinicialização seja razoável.
Tentei ler as referências formais, mas não sou estatístico nem matemático, por isso nada foi esclarecido.
Alguém pode fornecer um resumo de alto nível de quando a estimativa pode ser válida? Se você souber de boas referências sobre o assunto, isso também seria ótimo.
Editar:
A suavidade do estimador é frequentemente citada como um requisito para o bootstrap funcionar. Será que alguém também requer algum tipo de invertibilidade local da transformação? O mapa constante claramente não satisfaz isso.
Respostas:
O problema que você descreve é um problema de interpretação, não de validade. A estimativa de viés de inicialização do seu estimador constante não é inválida, é de fato perfeita.
A estimativa de bootstrap de polarização é entre um estimador de e um parâmetro onde é uma distribuição desconhecido e uma amostra a partir de . A função é algo que você poderia, em princípio, calcular se tivesse a população em mãos. Algumas vezes tomamos o plug-in estimativa da usando o empírico de distribuição no lugar de . Provavelmente, é isso que você descreve acima. Em todos os casos, a estimativa do viés de inicialização é queθ=t(F),FxFt(F)s(x)=T( M ),t(F) F Fbiumé F =E F [s(x*)]-t( Fθ^= s ( x ) θ = t ( F) , F x F t ( F) s ( x ) = t ( F^) , t ( F) F^ F x ∗ x
A constante é um plug-in perfeita estimativa para a mesma constante:c ~ F ~ F F T ( F ) = c c t ( F ) = c c a população é e a amostra , a distribuição empírica, que se aproxima . Se você pudesse avaliar , obteria . Ao calcular a estimativa do plug-in você também obtém . Sem viés, como seria de esperar.∼ F ∼ F^ F t ( F) = c c t ( F^) = c c
Um caso bem conhecido em que existe um viés na estimativa do plug-in está na estimativa da variação, daí a correção de Bessel. Abaixo eu demonstro isso. A estimativa do viés de inicialização não é tão ruim:t ( F^)
Em vez disso, poderíamos considerar como a média da população , situação em que na maioria dos casos deve haver um viés claro: s ( x ) = ct ( F) s ( x ) = c
Novamente, a estimativa de inicialização não é tão ruim.
fonte
Você comete um erro e talvez seja por isso que é confuso. Você diz:
O Bootstrap não é sobre o quanto seu método é tendencioso, mas quanto seus resultados obtidos por alguma função, dados seus dados, são tendenciosos.
Se você escolher o método estatístico apropriado para analisar seus dados, e todas as suposições desse método forem atendidas, e você fez suas contas corretamente, seu método estatístico deve fornecer a "melhor" estimativa possível que pode ser obtida usando seus dados .
A idéia do bootstrap é coletar seus dados da mesma maneira que você amostrou seus casos da população - portanto, é um tipo de replicação de sua amostra. Isso permite que você obtenha uma distribuição aproximada (usando palavras de Efrons) do seu valor e, portanto, avalie o viés da sua estimativa.
No entanto, o que eu argumento é que o seu exemplo é enganoso e, portanto, não é o melhor exemplo para discutir a inicialização. Como houve mal-entendidos de ambos os lados, deixe-me atualizar minha resposta e escrevê-la de maneira mais formal para ilustrar meu argumento.
Viés para θ estimativa estar do verdadeiro valor θ é definido como:θ^ θ
Onde:
Como observa Larry Wasserman em seu livro "All the Statistics" :
fonte
Você deseja usar a estatística real avaliada na distribuição empírica (isso geralmente é fácil, pois a amostra original é um conjunto finito), e não a estimativa. Em alguns casos, eles podem ser os mesmos (por exemplo, a média empírica é a mesma que a média da amostra), mas não serão em geral. Você deu um caso em que eles são diferentes, mas um exemplo menos patológico é o estimador imparcial usual para variação, que não é o mesmo que a variação populacional quando aplicada a uma distribuição finita.
TL / DR: O método de inicialização não é mágico. Para obter uma estimativa imparcial do viés, você precisa calcular o parâmetro de interesse exatamente em uma distribuição finita.
fonte
Acho útil pensar nos procedimentos de autoinicialização em termos dos funcionais das distribuições em que operam - dei um exemplo nesta resposta a uma pergunta diferente da autoinicialização.
A estimativa que você deu é o que é - uma estimativa. Ninguém diz que não sofre de problemas que as estimativas estatísticas possam ter. Ele fornecerá uma estimativa diferente de zero para a média da amostra, por exemplo, que todos sabemos que é imparcial para começar. Um problema com esse estimador de viés é que ele sofre de variabilidade de amostragem quando o bootstrap é implementado como Monte Carlo, em vez de uma enumeração completa de todas as subamostras possíveis (e ninguém que esse bootstrap teórico na prática, de qualquer maneira).
fonte