Suponha que se execute a chamada inicialização não-paramétrica, desenhando amostras de tamanho cada uma das observações originais com substituição. Eu acredito que este procedimento é equivalente a estimar a função de distribuição cumulativa pelo cdf empírico:
http://en.wikipedia.org/wiki/Empirical_distribution_function
e, em seguida, obtendo as amostras de autoinicialização simulando observações a partir dos tempos estimados de Cdf em uma linha.
Se eu estou certo nisso, é preciso abordar a questão do overfitting, porque o cdf empírico tem cerca de N parâmetros. Obviamente, assintoticamente, converge para a população cdf, mas e as amostras finitas? Por exemplo, se eu lhe disser que tenho 100 observações e vou estimar o cdf como com dois parâmetros, você não ficaria alarmado. No entanto, se o número de parâmetros subir para 100, não pareceria razoável.
Da mesma forma, quando se emprega uma regressão linear múltipla padrão, a distribuição do termo de erro é estimada em . Se alguém decide mudar para o bootstrap dos resíduos, ele deve perceber que agora existem cerca de parâmetros usados apenas para lidar com a distribuição do termo de erro.
Você poderia me indicar algumas fontes que abordam esse problema explicitamente ou me diga por que não é um problema se você acha que eu entendi errado.
Respostas:
não tenho certeza absoluta de que entendi bem sua pergunta ... presumo que você esteja interessado na ordem da convergência?
Você já leu alguns dos conceitos básicos da teoria do bootstrap? O problema é que fica muito selvagem (matematicamente) muito rapidamente.
De qualquer forma, eu recomendo dar uma olhada
van der Vaart "Estatísticas Assintóticas", capítulo 23.
Hall "Expansões de Bootstrap e Edgeworth" (longas, porém concisas e com menos movimento do que van der Vaart, eu diria)
para o básico.
O Chernick "Bootstrap Methods" é mais voltado para usuários do que para matemáticos, mas possui uma seção "onde o bootstrap falha".
O clássico Efron / Tibshirani tem pouco sobre por que o bootstrap realmente funciona ...
fonte
Janssen e Pauls mostraram que o bootstrap de uma estatística funciona assintoticamente, se um teorema do limite central também pudesse ser aplicado. Portanto, se você comparar a estimativa dos parâmetros de uma distribuição como a distribuição da estatística e a estimativa da distribuição da estatística via bootstrap, o objetivo será o mesmo.N( μ , σ2)
Intuitivamente, o bootstrap de amostras finitas subestima caudas pesadas da distribuição subjacente. Isso é claro, pois as amostras finitas têm um alcance finito, mesmo que o alcance real de sua distribuição seja infinito ou, pior ainda, tenha caudas pesadas. Portanto, o comportamento da estatística de autoinicialização nunca será tão "selvagem" quanto a estatística original. Assim, semelhante a evitar o ajuste excessivo devido a muitos parâmetros na regressão (paramétrica), poderíamos evitar o ajuste excessivo usando a distribuição normal de poucos parâmetros.
Edite respondendo aos comentários: Lembre-se de que você não precisa do bootstrap para estimar o cdf. Você geralmente usa o bootstrap para obter a distribuição (no sentido mais amplo, incluindo quantis, momentos, o que for necessário) de alguma estatística. Portanto, você não tem necessariamente um problema de sobreajuste (em termos de "a estimativa devido aos meus dados finitos parece muito boa em comparação com o que eu deveria ver com a verdadeira distribuição selvagem"). Mas, como se viu (pelo artigo citado e pelo comentário de Frank Harrel abaixo), a obtenção de um problema de sobreajuste está ligada a problemas com a estimativa paramétrica das mesmas estatísticas.
Portanto, como sua pergunta indica, o bootstrap não é uma panacéia contra problemas com estimativa paramétrica. A esperança de que o bootstrap ajude com problemas de parâmetro controlando toda a distribuição é espúria.
fonte
Uma fonte de intuição pode ser comparar taxas de convergência para CDFs paramétricos versus ECDFs, para dados de IDI.
Por DKW, o CDF empírico converge para o CDF verdadeiro a uma taxa (não apenas em um ponto, mas o supremo da diferença absoluta em todo o domínio dos CDFs): https: // pt .wikipedia.org / wiki / Dvoretzky% E2% 80% 93Kiefer% E2% 80% 93Wolfowitz_inequality http://www.stat.cmu.edu/~larry/=stat705/Lecture12.pdfn- 1 / 2
E por Berry-Esseen, o CDF de uma distribuição de amostragem para uma única média converge para seu limite Normal a uma taxa : https://en.wikipedia.org/wiki/Berry%E2%80 % 93Esseen_theorem (Isso não é exatamente o que queremos --- estamos nos perguntando sobre como o CDF paramétrico estimado dos dados converge, não sobre a distribuição de amostragem. Mas, no caso ideal mais simples, onde os dados são Normal e é conhecido e precisamos apenas estimar , imagino que as taxas de convergência devem ser as mesmas para o CDF dos dados e para o CDF da média?)n- 1 / 2 σ μ
Portanto, em certo sentido, a taxa na qual você precisa adquirir mais amostras é a mesma, se você está estimando o CDF usando um CDF empírico ou se está estimando um parâmetro diretamente usando um estimador do tipo de média da amostra. Isso pode ajudar a justificar o comentário de Frank Harrell de que "o número de parâmetros efetivos não é o mesmo que o tamanho da amostra".
Claro, essa não é a história toda. Embora as taxas não sejam diferentes, as constantes diferem. E há muito mais no bootstrap não paramétrico do que ECDFs - você ainda precisa fazer as coisas com o ECDF depois de estimar.
fonte