Qual método de inicialização é o mais preferido?

7

Talvez essa pergunta dependa dos dados fornecidos, mas existe um método "melhor" de inicialização do que os outros? Estou simplesmente usando um conjunto de dados de uma variável (que consiste nas diferenças entre as pontuações de futebol (2 equipes) nas últimas 15 semanas) ..

Primeiro, observe a inclinação correta desses dados; acho que isso levará em consideração qual inicialização eu recomendaria como "melhor" ou mais precisa para a representação dos dados.

insira a descrição da imagem aqui

Primeiro, aqui está o intervalo de inicialização padrão

N <- 10^4
n <- length(Differences)
Differences.mean <- numeric(N)
for(i in 1:N)
{
x <- sample(Differences, n, replace = TRUE)
Differences.mean[i]<- mean(x)
}

lower = mean(Differences.mean)-1.96*sd(Differences.mean) #Lower CI
upper = mean(Differences.mean)+1.96*sd(Differences.mean) #Upper CI
= (8.875, 10.916)

 mean(Differences.mean)-m  #The bias is fairly small also
= -.0019

Aqui está um intervalo de percentil de autoinicialização

 quantile(Differences.mean,c(.025,.975)
 = (8.893, 10.938) 

Por fim, aqui está o intervalo T do Bootstrap

Tstar = numeric(N)
for(i in 1:N)
{
y =sample(Differences, size = n, replace = TRUE)
Tstar[i] = (mean(y)-m) / (sd(y)/sqrt(n))
}
q1 = quantile(Tstar,.025) #empirical quantiles for bootstrap t (lower)
q2 = quantile(Tstar,.975) #empirical quantiles for bootstrap t (upper)

mean(Differences)-(q2*sd(Differences/sqrt(n)))
mean(Differences)-(q1*sd(Differences/sqrt(n)))
= (8.925, 10.997)

Além disso, mesmo o intervalo de confiança t parece bastante preciso

 t.test(Differences, conf.level = .95, alternative = "two.sided")
 = (8.867, 10.928)

Minha conclusão seria escolher o intervalo de bootstrap t, porque ele reflete a inclinação correta dos dados, e é esticada mais à direita do que qualquer um dos outros. Meu tamanho de amostra é 224. Acho que o tamanho da amostra desempenha um papel importante em minha conclusão, mas minha pergunta inicial foi "existe um método de inicialização melhor do que os outros?" .. Talvez talvez dependa realmente dos dados e do tamanho da amostra. Espero que isso não seja muito amplo.

Brandon
fonte
Isso é um problema de lição de casa?
21416 Jon
11
Aqui está um bom artigo para ler, "Comparação teórica de intervalos de confiança de bootstrap": projecteuclid.org/download/pdf_1/euclid.aos/1176350933
Jon
2
Parece que você tem boas idéias. Veja o trabalho de Tim Hesterberg no bootstrap t. Não entendo bem o seu gráfico, porque ele não mostra a que distância do lado negativo está a curva. Estou um pouco surpreso com a proximidade dos intervalos para todos os métodos. Eu esperava que o bootstrap padrão fosse muito pior.
Michael R. Chernick
11
Você considerou BC e BCa?
Michael R. Chernick
11
Você pode ver esses livros dos autores Efron e Tibshirani 1993. Davison e Hinkley 1997 e Chernick 2007. Meu livro foi publicado por Wiley. Efron Chapman e Hall e Davison e Hinkley Cambridge University Press, eu acho.
Michael R. Chernick

Respostas:

1

Como observa Michael Chernick , seria útil examinar também a inicialização auto -corrigida (BC) e a auto-correção e aceleração (BCa) .

A variante BCa, em particular, tenta lidar com a distorção dos dados, como você aparentemente tem. DiCiccio e Efron (1996, Statistical Science ) descobriram que ele tem um bom desempenho, assim como Davison & Hinkley, Bootstrap Methods e suas Aplicações (1997).

Por que meu intervalo de inicialização tem uma cobertura terrível? está relacionado, e eu recomendaria especialmente o artigo de Canto et al. (2006) que cito lá. E, no final, concordo que a resposta provavelmente está relacionada ao tamanho da amostra, bem como à sua distribuição subjacente e à pivotalidade ou não da estatística que você está inicializando.

Stephan Kolassa
fonte
É muito importante simular as probabilidades de não cobertura nos dois lados do intervalo de confiança. Quando fiz isso para a distribuição normal do log, todos os intervalos de inicialização têm uma cobertura terrível, exceto a inicialização que não tentei. Também valeria a pena usar um pacote de inicialização padrão para verificar o resultado da sua inicialização.
Frank Harrell