Por que os modelos de "erro no X" não são mais amplamente utilizados?

11

Quando calcular o erro padrão de um coeficiente de regressão, que não conta para a aleatoriedade na matriz de design X . Em OLS, por exemplo, nós calcular var(β^) como var((XTX)1XTY)=σ2(XTX)1

Se o X foram considerados aleatória, a lei da variância total que, em certo sentido, exigir a contribuição adicional da variância de X também. ie

var(β^)=var(E(β^|X))+E(var(β^|X)).

O qual, se o estimador OLS for realmente imparcial, o primeiro termo desaparecerá, pois a expectativa é constante. O segundo termo realmente se torna: σ2cov(X)1 .

  1. Se um modelo paramétrico para X é conhecido, por que não substituímos XTX pela estimativa de covariância real. Por exemplo, se X é uma atribuição aleatória de tratamento, a variação binomial E(X)(1E(X)) ser uma estimativa mais eficiente?

  2. Por que não consideramos o uso de modelos não paramétricos flexíveis para estimar as possíveis fontes de viés na estimativa do OLS e contabilizar adequadamente a sensibilidade ao projeto (ou seja, a distribuição de X ) no primeiro termo de variância da lei total var(E(β^|X)) ?

AdamO
fonte
2
Por que uma lei matemática "exige" alguma coisa? Usamos um modelo para raciocinar com dados para abordar objetivos específicos. Quando esses são para entender ou prever a resposta condicional com base em um valor observado ou medido a variação em X teria pouco (ou nada) a ver com a questão substantiva - de fato, incorporar essa variação em nossos procedimentos pareceria estar completamente errado, enganoso ou até sem sentido. Portanto, responder a sua pergunta se resume a avaliar as frequências com as quais diferentes tipos de problemas estatísticos são encontrados. X,X
whuber
1
@whuber Meu foco está na inferência. A lei da variância total parece estar mais alinhada com a interpretação freqüente dos resultados do estudo. Costumamos falar de "se o estudo foi replicado" ... sem levar em conta o fato de que a distribuição de poderia diferir se o estudo fosse replicado. O equilíbrio do sexo pode ser de 40% em uma amostra, mas 60% em outra, simplesmente como uma conseqüência aleatória de como o estudo foi obtido. Ironicamente, o bootstrap reflete isso, mas não gera nenhuma variabilidade no resultado para uma combinação específica de covariáveis. X
AdamO 30/05/19
2
Primeiro, muitos estudos colocam o sob controle experimental, por isso nem é aleatório. Segundo, estudos de observação (onde X é aleatória) frequentemente está interessado apenas em inferência acerca da distribuição condicional de Y . Assim, focar na inferência não distingue uma situação da outra. Quando a distribuição completa (conjunta) for interessante, você verá muitas pessoas recorrendo a formas de análise de correlação ou a vários procedimentos multivariados. Não existe o "bootstrap", porque nessa situação, como você reamostrar depende dos seus objetivos e do seu modelo. XXY.
whuber
1
@whuber O controle experimental é atribuído aleatoriamente no ponto de entrada do estudo. Como mencionei, este é um caso convincente: digamos que a randomização seja Bernoulli. Por que usar uma estimativa empírica de ? Use a probabilidade máxima: cov ( X ) = E ( X ) ( 1 - E ( X ) ) ? Você está correto sobre a inicialização, eu estava me referindo à inicialização não-paramétrica (incondicional) em que "linhas" de dados são amostradas com substituição. cov(X)=XTXcov(X)=E(X)(1E(X))
AdamO
2
X1X1β1

Respostas:

8

Sua pergunta (mais comentários adicionais nos comentários) parece estar mais interessada no caso em que temos um estudo controlado randomizado, em que o pesquisador atribui aleatoriamente uma ou mais das variáveis ​​explicativas, com base em algum desenho de randomização. Nesse contexto, você quer saber por que usamos um modelo que trata as variáveis ​​explicativas como constantes conhecidas, em vez de tratá-las como variáveis ​​aleatórias da distribuição amostral imposta pela randomização. (Sua pergunta é mais ampla que essa, mas esse parece ser o caso de interesse primário no comentário, portanto, esse é o assunto que abordarei.)

XYX No entanto, o objeto de inferência no problema ainda é a distribuição condicional da variável resposta, dadas as variáveis ​​explicativas. Assim, ainda faz sentido estimar os parâmetros nessa distribuição condicional, usando métodos de estimativa que possuem boas propriedades para inferir a distribuição condicional .

Esse é o caso normal que se aplica a um ECR usando técnicas de regressão. Obviamente, há algumas situações em que temos outros interesses e podemos, de fato, querer incorporar incerteza sobre as variáveis ​​explicativas. A incorporação da incerteza nas variáveis ​​explicativas geralmente ocorre em dois casos:

  • (1) Quando vamos além da análise de regressão e entramos na análise multivariada, estamos interessados ​​na distribuição conjunta das variáveis ​​explicativas e de resposta, em vez de apenas na distribuição condicional da última, dada a primeira. Pode haver aplicações onde esse seja o nosso interesse e, portanto, iríamos além da análise de regressão e incorporaríamos informações sobre a distribuição das variáveis ​​explicativas.

  • (2) Em algumas aplicações de regressão, nosso interesse está na distribuição condicional da variável de resposta condicional em uma variável explicativa não observada subjacente, na qual assumimos que as variáveis ​​explicativas observadas estavam sujeitas a erro ("erros nas variáveis"). Nesse caso, incorporamos a incerteza via "erros nas variáveis". A razão para isso é que nosso interesse nesses casos está na distribuição condicional , condicionada a uma variável subjacente não observada .

Observe que ambos os casos são matematicamente mais complicados do que a análise de regressão; portanto, se pudermos usar a análise de regressão, geralmente é preferível. De qualquer forma, na maioria das aplicações da análise de regressão, o objetivo é fazer uma inferência sobre a distribuição condicional da resposta, dadas as variáveis ​​explicativas observáveis, para que essas generalizações se tornem desnecessárias.


Ben - Restabelecer Monica
fonte
2
Boa resposta. Eu acrescentaria que o AFAIK se você tiver erros nas variáveis ​​gaussianos e erro na resposta gaussiano do que o método de regressão normal funciona e só se tornará um problema se você a) observar resposta sem erro b) tiver uma distribuição de resposta diferente
Martin Modrák
2

X

Já respondi a uma pergunta semelhante: Qual é a diferença entre condicionar os regressores e tratá-los como fixos? , então aqui vou copiar parte da minha resposta lá:

(Y,X)YXYX

f(y,x)=f(yx)f(x)
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θψXθ=(β,σ2)(θ,ψ)Θ×Ψ

Xfψ(x)Yfθ(yX=x)θXθ

θfψ(x)xθθX=x

Em experimentos projetados, sua suposição prevalecerá, geralmente com dados observacionais que não. Alguns exemplos de problemas serão: regressão com respostas atrasadas como preditores. O condicionamento nos preditores nesse caso também condicionará a resposta! (Vou adicionar mais exemplos).

§4.3


θXθXθ

Esse argumento de separação também é útil porque aponta para os casos em que não pode ser usado, por exemplo, regressão com respostas atrasadas como preditores.

kjetil b halvorsen
fonte
1
XYθψ
Eu não sei sobre PLS, mas vai tentar pensar sobre isso
b Kjetil Halvorsen
1
Resposta agradável ...!
Richard Hardy