Quando você deseja estimar um modelo simples como
e, em vez do verdadeiro você apenas o observa com algum erro que é tal que é não correlacionado com e , se você regredir
seu estimado é
Y i ~ Y i = Y i + ν i X ε ~ Y i = α + β X i + ε i β β
Yi=α+βXi+ϵi
YiY˜i=Yi+νiXϵY˜i=α+βXi+ϵi
ββˆ=Cov(Y˜i,Xi)Var(Xi)=Cov(Yi+νi,Xi)Var(Xi)=Cov(α+βXi+ϵi+νi,Xi)Var(Xi)=Cov(α,Xi)Var(Xi)+βCov(Xi,Xi)Var(Xi)+Cov(ϵi,Xi)Var(Xi)+Cov(νi,Xi)Var(Xi)=βVar(Xi)Var(Xi)=β
porque a covariância entre um A variável aleatória e uma constante ( ) são zero, bem como as covariâncias entre e pois assumimos que elas não estão correlacionadas.
αXiϵi,νi
Então você vê que seu coeficiente é estimado consistentemente. A única preocupação é que fornece um termo adicional no erro que reduz o poder de seus testes estatísticos. Em casos muito ruins desse erro de medição na variável dependente, você pode não encontrar um efeito significativo, mesmo que possa estar lá na realidade. Geralmente, as variáveis instrumentais não o ajudarão neste caso, porque elas tendem a ser ainda mais imprecisas que o OLS e só podem ajudar com erros de medição na variável explicativa.Y˜i=Yi+νi=α+βXi+ϵi+νi
A análise de regressão responde à pergunta: "Qual é o valor MÉDIO Y para quem forneceu valores X?" ou, equivalentemente, "Quanto é previsto que Y mude EM MÉDIA se trocarmos X por uma unidade?" O erro de medição aleatória não altera os valores médios de uma variável ou os valores médios para subconjuntos de indivíduos, portanto, o erro aleatório na variável dependente não influencia as estimativas de regressão.
Digamos que você tenha dados de altura em uma amostra de indivíduos. Essas alturas são medidas com muita precisão, refletindo com precisão a verdadeira estatura de todos. Dentro da amostra, a média para homens é 175 cm e a média para mulheres é 162 cm. Se você usar a regressão para calcular quão bem o sexo prediz altura, estimará o modelo
Se as mulheres são codificadas como 0 e os homens como 1, é a média feminina, ou 162 cm. O coeficiente de regressão mostra quanta altura muda ON MÉDIA quando você altera por uma unidade (de 0 a 1). é igual a 13 porque pessoas cujo valor para é 0 (mulheres) têm uma altura média de 162 cm, enquanto pessoas cujo valor para é 1 (homens) têm uma altura média de 175 cm; estima a diferença média entre as alturas de homens e mulheres, que é de 13 cm. ( reflete a variação de altura dentro do sexo.)β G E N D E R β G E N D E R G E N D E R β R E S I D U A LCONSTANT β GENDER β GENDER GENDER β RESIDUAL
Agora, se você adicionar aleatoriamente -1 cm ou +1 cm à altura real de todos, o que acontecerá? Indivíduos cuja altura real é, digamos, 170 cm serão agora relatados como sendo 169 ou 171 cm. No entanto, a média da amostra, ou qualquer subamostra, não será alterada. Aqueles cuja altura real é 170 cm terão uma média de 170 cm no novo conjunto de dados incorreto, as mulheres terão uma média de 162 cm etc. Se você executar novamente o modelo de regressão especificado acima usando esse novo conjunto de dados, o valor (esperado) de não será alterado porque a diferença média entre homens e mulheres ainda é de 13 cm, independentemente do erro de medição. (O erro padrão de será maior que antes, porque a variação da variável dependente agora é maior.)ββ β
Se houver um erro de medição na variável independente, e não na variável dependente, será uma estimativa tendenciosa. Isso é fácil de entender quando você considera o exemplo de altura. Se houver um erro aleatório de medição na variável , alguns homens serão erroneamente codificados como femininos e vice-versa. O efeito disso é reduzir as diferenças aparentes de gênero na altura, porque mover homens para o grupo feminino fará com que a média feminina seja maior, enquanto mover mulheres para o grupo masculino fará com que o masculino seja menor. Com erro de medição na variável independente, será menor que o valor imparcial de 13 cm. G E N D E R ββ GENDER β
Enquanto eu usei uma variável independente categórica ( ) para simplificar aqui, a mesma lógica se aplica a variáveis contínuas. Por exemplo, se você usasse uma variável contínua como a altura do nascimento para prever a altura do adulto, o valor esperado de seria o mesmo, independentemente da quantidade de erro aleatório nas medidas de altura do adulto.βGENDER β
fonte