Intuição do estimador sanduíche

20

A Wikipedia e a vinheta do pacote sanduíche R fornecem boas informações sobre as suposições que suportam erros padrão do coeficiente de OLS e os antecedentes matemáticos dos estimadores sanduíche. Ainda não estou claro como o problema da heterocedasticidade dos resíduos é tratado, provavelmente porque eu não entendo completamente a estimativa da variância padrão dos coeficientes OLS em primeiro lugar.

Qual é a intuição por trás do estimador sanduíche?

Robert Kubrick
fonte
5
Você precisa aprender mais sobre a estimativa (ou estimativa extrema, como às vezes é chamada em econometria). O estimador sanduíche para regressão é apenas um caso especial de uma fórmula delta muito geral e, se você entender o último, não terá problemas com o primeiro. Não há intuição de que o estimador sanduíche não tente modelar a heterocedasticidade ou faça algo específico sobre isso; é apenas um estimador de variância diferente que funciona sob um conjunto de suposições mais gerais que o estimador OLS padrão. M
StasK
@StasK Thanks! Você conhece algum recurso em particular sobre as fórmulas de estimativa M e método delta?
Robert Kubrick
A monografia "Robust Statistics" do @Robert Huber vale uma olhada.
Momo

Respostas:

17

Para o OLS, você pode imaginar que está usando a variação estimada dos resíduos (sob a suposição de independência e homoscedasticidade) como uma estimativa para a variação condicional dos s. No estimador baseado em sanduíche, você está usando os resíduos quadrados observados como uma estimativa de plug-in da mesma variação que pode variar entre as observações.Yi

var(β^)=(XTX)1(XTdiag(var(Y|X))X)(XTX)1

Na estimativa de erro padrão dos mínimos quadrados ordinários para a estimativa do coeficiente de regressão, a variação condicional do resultado é tratada como constante e independente, para que possa ser estimada consistentemente.

var^OLS(β^)=(XTX)1(r2XTX)(XTX)1

Para o sanduíche, evitamos a estimativa consistente da variação condicional e, em vez disso, usamos uma estimativa de plug-in da variação de cada componente usando o resíduo quadrado.

var^RSE(β^)=(XTX)-1(XTdiag(rEu2)X)(XTX)-1

Usando a estimativa de variação de plug-in, obtemos estimativas consistentes da variação de pelo Teorema do Limite Central de Lyapunov.β^

Intuitivamente, esses resíduos quadrados observados limparão qualquer erro inexplicável devido à heterocedasticidade que, de outra forma, seria inesperada sob a suposição de variação constante.

AdamO
fonte
É o seu último parágrafo que tenho dificuldade em entender. Você pode ilustrar?
Robert Kubrick
Não é SE em suas fórmulas, AdamO, é SE ^ 2 ... de qualquer maneira matricial que você queira dizer.
StasK
@StasK Bom ponto. Talvez um chapéu de variação seja melhor. Eu estava confundindo terminologia multivariada e univariada.
AdamO
1
@RobertKubrick No último parágrafo, estou apontando que a principal diferença nos estimadores é como representamos o termo de variação condicional . No modelo de regressão linear, estimamos consistentemente os resíduos, mas com o sanduíche, usamos apenas uma estimativa de plug-in da variação condicional para o ésimo termo, usando os resíduos quadrados. Na presença de heterocedasticidade, os pontos com resíduos quadrados relativamente grandes têm uma grande variação estimada correspondente e isso reduz sua influência nas estimativas de erro padrão. ivar(Y|X)Eu
AdamO
Edit: Eu disse que as estimativas de OLS var envolvem "estimativas consistentes de resíduos", quando eu pretendia dizer "estimativa consistente da variação dos resíduos".
Adamo