Bootstrap: estimativa está fora do intervalo de confiança

10

Fiz um bootstrap com um modelo misto (várias variáveis ​​com interação e uma variável aleatória). Eu obtive este resultado (apenas parcial):

> boot_out

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = a001a1, statistic = bootReg, R = 1000)

Bootstrap Statistics :
          original        bias     std. error
t1*   4.887383e+01 -1.677061e+00 4.362948e-01
t2*   3.066825e+01  1.264024e+00 5.328387e-01
t3*   8.105422e+01  2.368599e+00 6.789091e-01
t4*   1.620562e+02  4.908711e+00 1.779522e+00
......

Agora, eu queria obter os intervalos de confiança para a interceptação:

> boot.ci(boot_out,type=c("norm","basic","perc"), index=1)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = boot_out, type = c("norm", "basic", 
"perc"), index = 1)

Intervals : 
Level      Normal              Basic              Percentile     
95%   (49.70, 51.41 )   (49.70, 51.41 )   (46.34, 48.05 )  
Calculations and Intervals on Original Scale

O viés corrigido estimado é:

48,873 -1,677
1 47.196

O problema que tenho é que o IC normal e básico está fora da estimativa (original e corrigida). Eu só me pergunto como lidar com isso.

Atualização 1:
Aqui estão algumas perguntas semelhantes com muitas respostas.

Giordano
fonte
2
Apenas um comentário: Efron e Tibshirani (1993) no livro clássico argumentavam bastante contra a correção de viés, dizendo que é uma prática "perigosa" e "problemática" que pode levar ao aumento do erro padrão.
Tim
@ Tim Obrigado pelo seu comentário. Vou dar uma olhada no livro. Talvez uma solução seja usar as estimativas e o bootstrap se * para calcular os intervalos de confiança. No meu caso, o viés afeta apenas ligeiramente as estimativas.
Giordano

Respostas:

1

A dificuldade que você está enfrentando é da matemática implícita. Um estimador de centro de localização, ou um estimador de intervalo, pode ser considerado como a minimização de uma função de custo sobre uma distribuição. A média da amostra sobre o gaussiano minimiza a perda quadrática, enquanto a mediana minimiza a função de perda linear absoluta sobre o gaussiano. Embora na população eles estejam localizados no mesmo ponto, eles são descobertos usando diferentes funções de custo.

Damos a você um algoritmo e dizemos "faça isso", mas antes que o algoritmo fosse desenvolvido, alguém resolvia um problema de otimização.

Você aplicou quatro funções de custo diferentes, oferecendo três intervalos e um estimador de pontos. Como as funções de custo são diferentes, elas fornecem pontos e intervalos diferentes. Não há nada a ser feito a não ser unificar manualmente a metodologia.

Você precisa encontrar os documentos subjacentes e examinar o código subjacente para entender quais são mapeados para quais tipos de problemas.

Desculpe dizer isso, mas você foi traído pelo software. Ele fez o seu trabalho e, em média, isso funciona muito bem, mas você tem uma amostra em que o software não funciona. Ou melhor, está funcionando perfeitamente e você precisa realmente retroceder na literatura para determinar o que está realmente fazendo.

Dave Harris
fonte
Obrigado por Ele fez o seu trabalho, e, em média, isso funciona muito bem, mas você tem uma amostra em que o software não funciona e outras informações. De fato, a amostra é estranha e é por isso que eu queria usar o Bootsstrap para calcular o IC. Obviamente, esse método não parece tão simples quanto parece.
Giordano #