Os erros padrão do bootstrap e os intervalos de confiança são apropriados nas regressões em que a suposição de homoscedasticidade é violada?

13

Se nas regressões OLS padrão, duas suposições são violadas (distribuição normal de erros, homocedasticidade), o bootstrapping de erros padrão e intervalos de confiança é uma alternativa apropriada para obter resultados significativos com relação à significância dos coeficientes do regressor?

Os testes de significância com erros padrão de inicialização e intervalos de confiança ainda "funcionam" com heterocedasticidade?

Se sim, quais seriam os intervalos de confiança aplicáveis ​​que podem ser usados ​​nesse cenário (percentil, BC, BCA)?

Finalmente, se o bootstrapping for apropriado nesse cenário, qual seria a literatura relevante que precisa ser lida e citada para chegar a essa conclusão? Qualquer dica seria muito apreciada!

David
fonte
1
Se houver tal violação, não acho que o bootstrapping a cure. Em vez disso, por que não tentar transformar (log) os dados para se aproximar da normalidade e usar um erro padrão robusto, como o do pacote sanduíche no R?
B_Miner
O bootstrap funciona bem se você adaptar o esquema de reamostragem para a situação em que está.
Glen_b -Reinstate Monica

Respostas:

20

Existem pelo menos três (pode haver mais) abordagens para executar o autoinicialização para regressão linear com dados independentes, mas não idênticos, distribuídos. (Se você tiver outras violações das suposições "padrão", por exemplo, devido a correlações automáticas com dados de séries temporais ou agrupamentos devido ao design de amostragem, as coisas ficam ainda mais complicadas).

  1. Você pode reamostrar a observação como um todo, ou seja, tirar uma amostra com a substituição de dos dados originais { ( y i , x i ) } . Isso será assintoticamente equivalente à realização da correção da heterocedasticidade de Huber-White .(yj,xj){(yEu,xEu)}
  2. eEu=yEu-xEuβ^xjej
  3. Você pode executar um bootstrap selvagem no qual reamostrar o sinal do residual, que controla o segundo momento condicional (e, com alguns ajustes extras, também no terceiro momento condicional). Esse seria o procedimento que eu recomendaria (desde que você possa entendê-lo e defendê-lo de outras pessoas quando perguntado: "O que você fez para controlar a heterocedasticidade? Como você sabe que funciona?").

A referência final é Wu (1986) , mas Annals não é exatamente a leitura do livro de figuras.

ATUALIZAÇÕES com base nas perguntas de acompanhamento do OP feitas nos comentários:

O número de repetições me pareceu grande; a única boa discussão desse parâmetro de bootstrap que eu conheço é no livro Intro to Bootstrap de Efron & Tibshirani .

M) na comparação entre as correções de autoinicialização e heterocedasticidade.

StasK
fonte
Muito obrigado por sua ajuda! Permita-me uma pergunta de acompanhamento: As únicas suposições que violei são a distribuição normal de erros e as suposições de homoscedasticidade. Além disso, estou interessado apenas em ver se meus coeficientes de regressão são sig. na direção esperada ou não. A magnitude do efeito não é importante. Acho que o que fiz até agora é a sua opção 1. Inicializei erros padrão e gerou além disso intervalos de confiança. Fiz isso usando Stata: vce (bootstrap, reps (2500) bca), estat bootstrap. Isso cura minhas violações de suposição?
David
Não faço o diagnóstico dos dados com base apenas na sua sintaxe, e ninguém o fará. Qual é o tamanho do seu conjunto de dados? reps(2500)é provavelmente um exagero, pelo menos para os erros padrão; Eu acho que reps(500)é bom para fins mais práticos. O livro de introdução do Efron & Tibshirani possui uma seção sobre o número de repetições. Eles também têm um capítulo inteiro sobre regressão, de modo que pode ser outra boa referência para você examinar.
StasK
Obrigado pela sua resposta rápida. O conjunto de dados é ~ 250. Deixando de lado as perguntas sobre o número de repetições (obrigado pelo link!), Você concorda que erros padrão de inicialização (por meio de uma nova amostra das observações como um todo) e / ou intervalos de confiança da inicialização (por exemplo, percentil ou viés corrigidos) seriam uma maneira apropriada de determinar a significância (ou a falta dela) de um coeficiente de regressão, dada a violação da homoscedasticidade e a distribuição normal da suposição de erros? Muito obrigado pela sua contribuição!
David
Sim, eu diria que é melhor. Se você usar o Stata, poderá obter uma resposta muito semelhante usando a robustopção de sua regressão. est storeambos os resultados e est tab, seeles para comparar lado a lado.
Stask
Obrigado StasK. Também vi o seguinte comentário que você fez em outro lugar neste site: "Bootstrap simples com reamostragem ⇔ Estimador robusto de heterocedasticidade de White". No contexto das minhas perguntas, conforme descrito acima: Existem artigos publicados em periódicos que enfatizam esse ponto?
David