Duas maneiras de usar o bootstrap para estimar o intervalo de confiança dos coeficientes na regressão

21

Estou aplicando um modelo linear aos meus dados:

yEu=β0 0+β1xEu+ϵEu,ϵEuN(0 0,σ2).

Gostaria de estimar o intervalo de confiança (IC) dos coeficientes ( , ) usando o método de autoinicialização. Existem duas maneiras de aplicar o método de inicialização: β 1β0 0β1

  1. Amostra preditora de resposta emparelhada: aleatoriamente os pares de e aplique regressão linear a cada execução. Após execuções, obtemos uma coleção de coeficientes estimados . Por fim, calcule o quantil de . m ^ β j , j = 1 , . . . m ^ β jyEu-xEumβj^,j=1,...mβj^

  2. Erro de amostra: primeiro aplique a regressão linear nos dados originais observados, deste modelo obtemos e o erro . Posteriormente, resample aleatoriamente o erro e calcule os novos dados com e . Aplique novamente a regressão linear. Após execuções, obtemos uma coleção de coeficientes estimados . Por fim, calcule o quantil de .βo^ϵEuϵEuβo^yEu=βo^xEu+ϵEumβj^,j=1,...,mβj^

Minhas perguntas são:

  • Como esses dois métodos são diferentes?
  • Sob qual suposição esses dois métodos estão dando o mesmo resultado?
tiantianchen
fonte
7
Pessoalmente, eu não usaria a abordagem padrão, mas recomendaria o intervalo básico de confiança da inicialização. Veja a pág. 8 de www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Tenho feito muitas simulações para o modelo de logística binária e vi uma melhor cobertura do intervalo de confiança usando o bootstrap básico do que usando o percentil ou o BCa.
31813 Frank Harrell
1
@FrankHarrell para ser claro, por "básico" você está se referindo à inicialização não paramétrica?
Ndoogan 19/07
3
(1) é o intervalo de confiança não paramétrico do percentil de auto-inicialização, não a auto-inicialização básica. Observe que a amostragem de é a inicialização incondicional, que é mais livre de suposições do que a inicialização condicional que faz uma nova amostra de resíduos. (x,y)
31813 Frank Harrell
2
Eu realmente não sou um especialista, mas, tanto quanto eu entendo, 1) é muitas vezes chamado enquanto o 2) é chamado de "resampling residual" "case-reamostragem" ou "fixo " reamostragem. A escolha básica do método não implica o método de como calcular os intervalos de confiança após o procedimento. Eu obtive essas informações principalmente no tutorial de John Fox . Tanto quanto eu vejo, após qualquer inicialização, você pode calcular os ICs básicos da inicialização (por exemplo, com in ). Ou eu sinto falta de alguma coisa aqui? xboot.ci(my.boot, type="basic")R
amigos estão dizendo sobre coop
2
Sim, você pode fazer a inicialização do cluster. Isso é implementado no R rms validatee calibratefunções.
31813 Frank Harrell

Respostas:

9

Se os pares preditores de resposta foram obtidos de uma população por amostra aleatória, é seguro usar o esquema de reamostragem de caso / aleatório-x / seu primeiro. Se os preditores foram controlados ou os valores dos preditores foram definidos pelo pesquisador, você pode considerar o uso de um esquema de reamostragem residual / baseado em modelo / fixo-x / seu segundo.

Como os dois diferem? Uma introdução ao bootstrap com aplicativos em R de Davison e Kounen tem uma discussão pertinente a esta questão (consulte a p.9). Veja também o código R neste apêndice de John Fox , particularmente funções boot.huber na p.5 para o esquema random-x e boot.huber.fixed na p.10 para o esquema x fixo. Enquanto nas notas de aula de Shalizi os dois esquemas são aplicados a diferentes conjuntos de dados / problemas, o apêndice de Fox ilustra a pouca diferença que os dois esquemas costumam fazer.

Quando se espera que os dois entreguem resultados quase idênticos? Uma situação é quando o modelo de regressão é especificado corretamente, por exemplo, não há não-linearidade não modelada e as suposições usuais de regressão (por exemplo, erros de identificação, sem discrepâncias) são satisfeitas. Veja o capítulo 21 do livro de Fox (no qual o apêndice mencionado acima com o código R pertence indiretamente), particularmente a discussão na página 598 e o exercício 21.3. intitulado "Reamostragem aleatória versus fixa em regressão". Para citar o livro

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

Você também aprenderá com essa discussão por que o bootstrap de x fixo supõe implicitamente que a forma funcional do modelo está correta (mesmo que nenhuma suposição seja feita sobre a forma da distribuição de erros).

Veja também o slide 12 desta palestra para a Society Of Actuaries in Ireland, de Derek Bain. Ele também tem uma ilustração do que deve ser considerado "o mesmo resultado":

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.
Hibernando
fonte