Quando calcular o erro padrão de um coeficiente de regressão, que não conta para a aleatoriedade na matriz de design . Em OLS, por exemplo, nós calcular como
Se o foram considerados aleatória, a lei da variância total que, em certo sentido, exigir a contribuição adicional da variância de também. ie
O qual, se o estimador OLS for realmente imparcial, o primeiro termo desaparecerá, pois a expectativa é constante. O segundo termo realmente se torna: .
Se um modelo paramétrico para é conhecido, por que não substituímos pela estimativa de covariância real. Por exemplo, se é uma atribuição aleatória de tratamento, a variação binomial ser uma estimativa mais eficiente?
Por que não consideramos o uso de modelos não paramétricos flexíveis para estimar as possíveis fontes de viés na estimativa do OLS e contabilizar adequadamente a sensibilidade ao projeto (ou seja, a distribuição de ) no primeiro termo de variância da lei total ?
Respostas:
Sua pergunta (mais comentários adicionais nos comentários) parece estar mais interessada no caso em que temos um estudo controlado randomizado, em que o pesquisador atribui aleatoriamente uma ou mais das variáveis explicativas, com base em algum desenho de randomização. Nesse contexto, você quer saber por que usamos um modelo que trata as variáveis explicativas como constantes conhecidas, em vez de tratá-las como variáveis aleatórias da distribuição amostral imposta pela randomização. (Sua pergunta é mais ampla que essa, mas esse parece ser o caso de interesse primário no comentário, portanto, esse é o assunto que abordarei.)
Esse é o caso normal que se aplica a um ECR usando técnicas de regressão. Obviamente, há algumas situações em que temos outros interesses e podemos, de fato, querer incorporar incerteza sobre as variáveis explicativas. A incorporação da incerteza nas variáveis explicativas geralmente ocorre em dois casos:
(1) Quando vamos além da análise de regressão e entramos na análise multivariada, estamos interessados na distribuição conjunta das variáveis explicativas e de resposta, em vez de apenas na distribuição condicional da última, dada a primeira. Pode haver aplicações onde esse seja o nosso interesse e, portanto, iríamos além da análise de regressão e incorporaríamos informações sobre a distribuição das variáveis explicativas.
(2) Em algumas aplicações de regressão, nosso interesse está na distribuição condicional da variável de resposta condicional em uma variável explicativa não observada subjacente, na qual assumimos que as variáveis explicativas observadas estavam sujeitas a erro ("erros nas variáveis"). Nesse caso, incorporamos a incerteza via "erros nas variáveis". A razão para isso é que nosso interesse nesses casos está na distribuição condicional , condicionada a uma variável subjacente não observada .
Observe que ambos os casos são matematicamente mais complicados do que a análise de regressão; portanto, se pudermos usar a análise de regressão, geralmente é preferível. De qualquer forma, na maioria das aplicações da análise de regressão, o objetivo é fazer uma inferência sobre a distribuição condicional da resposta, dadas as variáveis explicativas observáveis, para que essas generalizações se tornem desnecessárias.
fonte
Já respondi a uma pergunta semelhante: Qual é a diferença entre condicionar os regressores e tratá-los como fixos? , então aqui vou copiar parte da minha resposta lá:
Em experimentos projetados, sua suposição prevalecerá, geralmente com dados observacionais que não. Alguns exemplos de problemas serão: regressão com respostas atrasadas como preditores. O condicionamento nos preditores nesse caso também condicionará a resposta! (Vou adicionar mais exemplos).
Esse argumento de separação também é útil porque aponta para os casos em que não pode ser usado, por exemplo, regressão com respostas atrasadas como preditores.
fonte