Estou tendo problemas para entender como usar o bootstrapping para calcular intervalos de previsão para um modelo de regressão linear. Alguém pode descrever um procedimento passo a passo? Eu pesquisei via google, mas nada realmente faz sentido para mim.
Eu entendo como usar a inicialização para calcular intervalos de confiança para os parâmetros do modelo.
Respostas:
Intervalos de confiança levam em consideração a incerteza da estimativa. Intervalos de previsão adicionam a isso a incerteza fundamental. R
predict.lm
fornecerá o intervalo de previsão para um modelo linear. A partir daí, tudo o que você precisa fazer é executá-lo repetidamente em amostras com bootstrap.O resultado
replicate
é uma matriz tridimensional (n
x3
xn.bs
). A dimensão do comprimento 3 consiste no valor ajustado para cada elemento de dados e nos limites inferior / superior do intervalo de previsão de 95%.Método de Gary King
Dependendo do que você deseja, há um método interessante de King, Tomz e Wittenberg . É relativamente fácil de implementar e evita os problemas de inicialização para determinadas estimativas (por exemplo
max(Y)
).Vou citar sua definição de incerteza fundamental aqui, já que é razoavelmente bom:
fonte
O bootstrapping não assume nenhum conhecimento da forma da distribuição pai subjacente da qual a amostra surgiu. As estimativas clássicas clássicas dos parâmetros estatísticos são baseadas na suposição de normalidade. O Bootstrap lida com a não normalidade e é mais preciso na prática do que os métodos clássicos.
O bootstrapping substitui o poder de computação bruto dos computadores por rigorosa análise teórica. É uma estimativa para a distribuição amostral de um termo de erro do conjunto de dados. O bootstrapping inclui: amostrar novamente o conjunto de dados um número especificado de vezes, calcular a média de cada amostra e encontrar o erro padrão da média.
O seguinte código "R" demonstra o conceito:
Este exemplo prático demonstra a utilidade do bootstrap e estima o erro padrão. O erro padrão é necessário para calcular o intervalo de confiança.
Vamos supor que você tenha um conjunto de dados assimétrico "a":
visualização do conjunto de dados inclinado
Execute o procedimento de inicialização:
fonte