Fiquei me perguntando como CIs de auto-inicialização (e BCa em barticular) se comportam em dados normalmente distribuídos. Parece haver muito trabalho examinando seu desempenho em vários tipos de distribuição, mas não foi possível encontrar nada nos dados distribuídos normalmente. Como parece óbvio estudar primeiro, suponho que os papéis sejam muito antigos.
Fiz algumas simulações de Monte Carlo usando o pacote de inicialização R e constatei que os ICs de inicialização estão de acordo com os ICs exatos, embora para amostras pequenas (N <20) eles tendem a ser um pouco liberais (ICs menores). Para amostras grandes o suficiente, elas são essencialmente as mesmas.
Isso me faz pensar se existe algum bom motivo para nem sempre usar o bootstrap. Dada a dificuldade de avaliar se uma distribuição é normal e as muitas armadilhas por trás disso, parece razoável não decidir e relatar ICs de autoinicialização, independentemente da distribuição. Entendo a motivação para não usar testes não paramétricos sistematicamente, pois eles têm menos poder, mas minhas simulações me dizem que esse não é o caso dos ICs de autoinicialização. Eles são ainda menores.
Uma pergunta semelhante que me incomoda é por que nem sempre usamos a mediana como medida de tendência central. As pessoas geralmente recomendam usá-lo para caracterizar dados não distribuídos normalmente, mas como a mediana é a mesma que a média dos dados distribuídos normalmente, por que fazer uma distinção? Seria bastante benéfico se pudéssemos nos livrar dos procedimentos para decidir se uma distribuição é normal ou não.
Estou muito curioso sobre seus pensamentos sobre essas questões e se elas já foram discutidas antes. As referências seriam muito apreciadas.
Obrigado!
Pierre
Respostas:
É benéfico observar a motivação para o intervalo BCa e seus mecanismos (isto é, os chamados "fatores de correção"). Os intervalos BCa são um dos aspectos mais importantes do bootstrap porque são os casos mais gerais dos intervalos percentuais do bootstrap (ou seja, o intervalo de confiança baseado apenas na própria distribuição do bootstrap).
Em particular, observe a relação entre os intervalos BCa e os intervalos percentuais de bootstrap: quando o ajuste para aceleração (o primeiro "fator de correção") e assimetria (o segundo "fator de correção") são zero, os intervalos de BCa retornam a o intervalo percentual típico do Bootstrap.
Eu não acho que seria uma boa idéia SEMPRE usar o bootstrap. O bootstrapping é uma técnica robusta que possui uma variedade de mecanismos (por exemplo, intervalos de confiança e existem variações diferentes do bootstrap para diferentes tipos de problemas, como o wild bootstrap quando há heterocedasticidade) para ajustar diferentes problemas (ex: não normalidade) ), mas se baseia em uma suposição crucial: os dados representam com precisão a verdadeira população.
Essa suposição, embora simples por natureza, pode ser difícil de verificar, especialmente no contexto de amostras pequenas (pode ser que uma amostra pequena seja um reflexo preciso da verdadeira população!). Se a amostra original na qual a distribuição de autoinicialização (e, portanto, todos os resultados a seguir) não for adequadamente precisa, seus resultados (e, portanto, sua decisão com base nesses resultados) serão falhos.
CONCLUSÃO: Há muita ambiguidade com o bootstrap e você deve ter cuidado antes de aplicá-lo.
fonte