Estou aplicando um modelo linear aos meus dados:
Gostaria de estimar o intervalo de confiança (IC) dos coeficientes ( , ) usando o método de autoinicialização. Existem duas maneiras de aplicar o método de inicialização: β 1
Amostra preditora de resposta emparelhada: aleatoriamente os pares de e aplique regressão linear a cada execução. Após execuções, obtemos uma coleção de coeficientes estimados . Por fim, calcule o quantil de . m ^ β j , j = 1 , . . . m ^ β j
Erro de amostra: primeiro aplique a regressão linear nos dados originais observados, deste modelo obtemos e o erro . Posteriormente, resample aleatoriamente o erro e calcule os novos dados com e . Aplique novamente a regressão linear. Após execuções, obtemos uma coleção de coeficientes estimados . Por fim, calcule o quantil de .
Minhas perguntas são:
- Como esses dois métodos são diferentes?
- Sob qual suposição esses dois métodos estão dando o mesmo resultado?
fonte
boot.ci(my.boot, type="basic")
R
rms
validate
ecalibrate
funções.Respostas:
Se os pares preditores de resposta foram obtidos de uma população por amostra aleatória, é seguro usar o esquema de reamostragem de caso / aleatório-x / seu primeiro. Se os preditores foram controlados ou os valores dos preditores foram definidos pelo pesquisador, você pode considerar o uso de um esquema de reamostragem residual / baseado em modelo / fixo-x / seu segundo.
Como os dois diferem? Uma introdução ao bootstrap com aplicativos em R de Davison e Kounen tem uma discussão pertinente a esta questão (consulte a p.9). Veja também o código R neste apêndice de John Fox , particularmente funções boot.huber na p.5 para o esquema random-x e boot.huber.fixed na p.10 para o esquema x fixo. Enquanto nas notas de aula de Shalizi os dois esquemas são aplicados a diferentes conjuntos de dados / problemas, o apêndice de Fox ilustra a pouca diferença que os dois esquemas costumam fazer.
Quando se espera que os dois entreguem resultados quase idênticos? Uma situação é quando o modelo de regressão é especificado corretamente, por exemplo, não há não-linearidade não modelada e as suposições usuais de regressão (por exemplo, erros de identificação, sem discrepâncias) são satisfeitas. Veja o capítulo 21 do livro de Fox (no qual o apêndice mencionado acima com o código R pertence indiretamente), particularmente a discussão na página 598 e o exercício 21.3. intitulado "Reamostragem aleatória versus fixa em regressão". Para citar o livro
Você também aprenderá com essa discussão por que o bootstrap de x fixo supõe implicitamente que a forma funcional do modelo está correta (mesmo que nenhuma suposição seja feita sobre a forma da distribuição de erros).
Veja também o slide 12 desta palestra para a Society Of Actuaries in Ireland, de Derek Bain. Ele também tem uma ilustração do que deve ser considerado "o mesmo resultado":
fonte