Modelo de regressão linear mais adequado para dados com erros

Estou procurando pelo algoritmo de regressão linear mais adequado para dados cuja variável independente (x) possui um erro de medição constante e a variável dependente (y) possui um erro dependente do sinal.

insira a descrição da imagem aqui

A imagem acima ilustra minha pergunta.

regression linear-model measurement-error measurement user46178
fonte

Se a variável constante x tem um erro de medição constante e os erros são usados apenas para ponderar as variáveis de maneira relativa, essa situação não é equivalente a não haver erros em x?

pedrofigueira 26/05

@pedro Esse não é o caso, porque os erros em não são meramente pesos em uma fórmula. Com a regressão de erros nas variáveis, os ajustes diferem e as estimativas de covariância dos parâmetros diferem da regressão comum.

x

$x$

whuber

Obrigado pelo esclarecimento. Você poderia expandir um pouco o porquê desse caso?

pedrofigueira 26/05

Erro de medição na variável dependente

Dado um modelo linear geral com homosckedastic, não autocorrelacionado e não correlacionado com as variáveis independentes, deixe denotar a variável "verdadeira" e sua medida observável. O erro de medição é definido como sua diferença Assim, o modelo estimado é: Como são observado, podemos estimar o modelo por OLS. Se o erro de medição em for estatisticamente independente de cada variável explicativa, então

\begin{matrix} (1) & y = β_{0} + β_{1} x_{1} + \dots + β_{k} x_{k} + ε \end{matrix}

$y=\beta_0+\beta_1 x_1+\cdots+\beta_kx_k+\varepsilon\tag{1}$

ε

$\varepsilon$

y^{*}

$y^*$

y

$y$

e = y - y^{*}

$e=y-y^*$

\begin{matrix} (2) & y = β_{0} + β_{1} x_{1} + \dots + β_{k} x_{k} + e + ε \end{matrix}

$y=\beta_0+\beta_1 x_1+\cdots+\beta_kx_k+e+\varepsilon\tag{2}$

y, x_{1}, \dots, x_{k}

$y,x_1,\dots,x_k$

y

$y$

(e + ε)

$(e+\varepsilon)$ compartilha as mesmas propriedades de e os procedimentos usuais de inferência do OLS ( estatísticas , etc.) são válidos. No entanto, no seu caso, eu esperaria uma variação crescente de . Você poderia usar:

ε

$\varepsilon$

t

$t$

e

$e$

um estimador de mínimos quadrados ponderados (por exemplo, Kutner et al. , §11.1; Verbeek , §4.3.1-3);
o estimador OLS, que ainda é imparcial e consistente, e erros padrão consistentes com heterocedasticidade, ou simplesmente erros padrão Wite ( Verbeek , §4.3.4).

Erro de medição na variável independente

Dado o mesmo modelo linear que acima, deixe denotar o valor "true" e sua medida observável. O erro de medição é agora: Existem duas situações principais ( Wooldridge , §4.4.2). $x_k^*$ $x_k$

e_{k} = x_{k} - x_{k}^{*}

$e_k=x_k-x_k^*$

$\text{Cov}(x_k,e_k)=0$ : o erro de medição não está correlacionado com a medida observada e, portanto, deve ser correlacionado com a variável não observada ; escrevendo e conectando-o a (1): pois e ambos não são correlacionados com cada , incluindo , apenas a medição aumenta a variação do erro e não viola nenhuma das suposições do OLS; $x^*_k$ $x_k^*=x_k-e_k$
$y = β_{0} + β_{1} x_{1} + \dots + β_{k} x_{k} + (ε - β_{k} e_{k})$ $y=\beta_0+\beta_1x_1+\cdots+\beta_kx_k+(\varepsilon-\beta_ke_k)$ $\varepsilon$ $e$ $x_j$ $x_k$
$\text{Cov}(x^*_k,\eta_k)=0$ : o erro de medição não está correlacionado com a variável não observada e, portanto, deve ser correlacionado com a medida observada ; essa correlação causa prolongamentos e a regressão OLS de em geralmente fornece estimadores tendenciosos e inconsistentes. $x_k$ $y$ $x_1,\dots,x_k$

Tanto quanto posso adivinhar, olhando para seu gráfico (erros centrados nos valores "verdadeiros" da variável independente)), o primeiro cenário pode ser aplicado.

Sergio
fonte

Modelo de regressão linear mais adequado para dados com erros

Respostas: