Talvez essa pergunta dependa dos dados fornecidos, mas existe um método "melhor" de inicialização do que os outros? Estou simplesmente usando um conjunto de dados de uma variável (que consiste nas diferenças entre as pontuações de futebol (2 equipes) nas últimas 15 semanas) ..
Primeiro, observe a inclinação correta desses dados; acho que isso levará em consideração qual inicialização eu recomendaria como "melhor" ou mais precisa para a representação dos dados.
Primeiro, aqui está o intervalo de inicialização padrão
N <- 10^4
n <- length(Differences)
Differences.mean <- numeric(N)
for(i in 1:N)
{
x <- sample(Differences, n, replace = TRUE)
Differences.mean[i]<- mean(x)
}
lower = mean(Differences.mean)-1.96*sd(Differences.mean) #Lower CI
upper = mean(Differences.mean)+1.96*sd(Differences.mean) #Upper CI
= (8.875, 10.916)
mean(Differences.mean)-m #The bias is fairly small also
= -.0019
Aqui está um intervalo de percentil de autoinicialização
quantile(Differences.mean,c(.025,.975)
= (8.893, 10.938)
Por fim, aqui está o intervalo T do Bootstrap
Tstar = numeric(N)
for(i in 1:N)
{
y =sample(Differences, size = n, replace = TRUE)
Tstar[i] = (mean(y)-m) / (sd(y)/sqrt(n))
}
q1 = quantile(Tstar,.025) #empirical quantiles for bootstrap t (lower)
q2 = quantile(Tstar,.975) #empirical quantiles for bootstrap t (upper)
mean(Differences)-(q2*sd(Differences/sqrt(n)))
mean(Differences)-(q1*sd(Differences/sqrt(n)))
= (8.925, 10.997)
Além disso, mesmo o intervalo de confiança t parece bastante preciso
t.test(Differences, conf.level = .95, alternative = "two.sided")
= (8.867, 10.928)
Minha conclusão seria escolher o intervalo de bootstrap t, porque ele reflete a inclinação correta dos dados, e é esticada mais à direita do que qualquer um dos outros. Meu tamanho de amostra é 224. Acho que o tamanho da amostra desempenha um papel importante em minha conclusão, mas minha pergunta inicial foi "existe um método de inicialização melhor do que os outros?" .. Talvez talvez dependa realmente dos dados e do tamanho da amostra. Espero que isso não seja muito amplo.
fonte
Respostas:
Como observa Michael Chernick , seria útil examinar também a inicialização auto -corrigida (BC) e a auto-correção e aceleração (BCa) .
A variante BCa, em particular, tenta lidar com a distorção dos dados, como você aparentemente tem. DiCiccio e Efron (1996, Statistical Science ) descobriram que ele tem um bom desempenho, assim como Davison & Hinkley, Bootstrap Methods e suas Aplicações (1997).
Por que meu intervalo de inicialização tem uma cobertura terrível? está relacionado, e eu recomendaria especialmente o artigo de Canto et al. (2006) que cito lá. E, no final, concordo que a resposta provavelmente está relacionada ao tamanho da amostra, bem como à sua distribuição subjacente e à pivotalidade ou não da estatística que você está inicializando.
fonte