Métodos para ajustar um modelo de erro de medição “simples”

Estou procurando métodos que possam ser usados para estimar o modelo de erro de medição "OLS".

y_{i} = Y_{i} + e_{y, i}

$y_{i}=Y_{i}+e_{y,i}$

x_{i} = X_{i} + e_{x, i}

$x_{i}=X_{i}+e_{x,i}$

Y_{i} = α + β X_{i}

$Y_{i}=\alpha + \beta X_{i}$

Onde os erros são independentes normais com variações desconhecidas e . O OLS "Padrão" não funcionará neste caso. $\sigma_{y}^{2}$ $\sigma_{x}^{2}$

A Wikipedia tem algumas soluções desagradáveis - as duas são forçadas a assumir que a "taxa de variação" ou " taxa de confiabilidade " é conhecido, onde é a variação do regressor verdadeiro . Não estou satisfeito com isso, porque como alguém que não conhece as variações conhece sua proporção? $\delta=\frac{\sigma_{y}^{2}}{\sigma_{x}^{2}}$ $\lambda=\frac{\sigma_{X}^{2}}{\sigma_{x}^{2}+\sigma_{X}^{2}}$ $\sigma_{X}^2$ $X_i$

De qualquer forma, existem outras soluções além dessas duas que não exigem que eu "saiba" nada sobre os parâmetros?

Soluções para apenas a interceptação e a inclinação são boas.

regression estimation errors-in-variables probabilityislogic
fonte

o próprio artigo da Wikipedia fornece a resposta para esta pergunta. Se você assumir a normalidade do regressor "true", precisará de mais condições nas distribuições dos erros. Se o regressor verdadeiro não é gaussiano, você tem alguma esperança. Veja Reiersol (1950) .

cardeal

Além disso, o que você quer dizer com "Soluções para apenas a interceptação e a inclinação estão corretas". Esses são seus únicos dois parâmetros! Ou você esperava tentar recuperar o regressor "verdadeiro" também?

cardeal

@ cardinal - quis dizer que não me importava particularmente com os dois parâmetros de escala e, como você diz, com o regressor "verdadeiro" .

X_{i}

$X_{i}$

probabilityislogic

Entendo. Isso faz sentido.

cardeal

Existem várias possibilidades descritas por JW Gillard em Uma visão geral histórica da regressão linear com erros nas duas variáveis

Se você não estiver interessado em detalhes ou razões para a escolha de um método sobre outro, basta ir com o mais simples, que é o de traçar a linha através do centróide com inclinação , ou seja, a razão entre os desvios padrão observados (fazendo o sinal do declive o mesmo que o sinal da covariância de e ); como você provavelmente pode trabalhar fora, isso dá uma interceptação na -axis de $(\bar{x},\bar{y})$ $\hat{\beta}=s_y/s_x$ $x$ $y$ $y$ $\hat{\alpha}=\bar{y}-\hat{\beta}\bar{x}.$

Os méritos dessa abordagem específica são

fornece a mesma linha comparando contra como contra , $x$ $y$ $y$ $x$
é invariável à escala, portanto você não precisa se preocupar com unidades,
está entre as duas linhas de regressão linear comuns
cruza-os onde eles se cruzam no centróide das observações e
é muito fácil de calcular.

A inclinação é a média geométrica das inclinações das duas inclinações de regressão linear ordinárias. Também é o que você obteria se padronizasse as observações e , desenhasse uma linha a 45 ° (ou 135 ° se houver correlação negativa) e depois padronizasse a linha. Também poderia ser visto como equivalente a fazer uma suposição implícita de que as variações dos dois conjuntos de erros são proporcionais às variações dos dois conjuntos de observações; Até onde eu sei, você alega não saber de que maneira isso está errado. $x$ $y$

Aqui está um código R para ilustrar: a linha vermelha no gráfico é regressão OLS de em , a linha azul é regressão OLS de em e a linha verde é esse método simples. Observe que a inclinação deve ser de cerca de 5. $Y$ $X$ $X$ $Y$

X0 <- 1600:3600
Y0 <- 5*X0 + 700
X1 <- X0 + 400*rnorm(2001)
Y1 <- Y0 + 2000*rnorm(2001)
slopeOLSXY  <- lm(Y1 ~ X1)$coefficients[2]     #OLS slope of Y on X
slopeOLSYX  <- 1/lm(X1 ~ Y1)$coefficients[2]   #Inverse of OLS slope of X on Y
slopesimple <- sd(Y1)/sd(X1) *sign(cov(X1,Y1)) #Simple slope
c(slopeOLSXY, slopeOLSYX, slopesimple)         #Show the three slopes
plot(Y1~X1)
abline(mean(Y1) - slopeOLSXY  * mean(X1), slopeOLSXY,  col="red")
abline(mean(Y1) - slopeOLSYX  * mean(X1), slopeOLSYX,  col="blue")
abline(mean(Y1) - slopesimple * mean(X1), slopesimple, col="green")

Henry
fonte

@Henry, sua definição de

não faz qualquer sentido para mim. Faltam alguns "chapéus"?

\hat{β}

$\hat{\beta}$

cardeal

É para ser o desvio padrão observado de

dividido pelo desvio padrão observado de

. Eu irei mudar

para

{y_{i}}

$\{y_i\}$

{x_{i}}

$\{x_i\}$

σ

$\sigma$

s

$s$

Henry

@ Henry, você pode esclarecer alguns de seus comentários? Parece-me que algo está errado com base na sua descrição atual. Deixe

ser o declive assumindo que

é a resposta e

é o preditor. Deixe

ser o declive assumindo que

é a resposta e

o preditor. Em seguida,

{\hat{β}}_{x y}

$\hat{\beta}_{xy}$

y

$y$

x

$x$

{\hat{β}}_{y x}

$\hat{\beta}_{yx}$

x

$x$

y

$y$

{\hat{β}}_{x y} = \hat{ρ} s_{y} / s_{x}

$\hat{\beta}_{xy} = \hat{\rho}s_y / s_x$

, onde

é a amostrade correlaçãoentre

. Daí a média geométrica das duas estimativas de inclinação é apenas

{\hat{β}}_{y x} = \hat{ρ} s_{x} / s_{y}

$\hat{\beta}_{yx} = \hat{\rho} s_x / s_y$

\hat{ρ}

$\hat{\rho}$

x

$x$

y

$y$

\hat{ρ}

$\hat{\rho}$

cardeal

@ cardinal: Não - quando vejo

quero dizer que a inclinação é

pois pode ser reescrita como

. Quando tenta desenhar as duas linhas OLS no mesmo gráfico, juntamente com os pontos observados (por exemplo, com

no eixo vertical e

, no eixo horizontal) tem de inverter uma das pistas. Então, eu quis dizer que você tome a média geométrica de

x = b y + c

$x = by+c$

1 / b

$1/b$

y = x / b - c / b

$y=x/b-c/b$

y

$y$

x

$x$

\hat{ρ} s_{y} / s_{x}

$\hat{\rho}s_y/s_x$

, que é simplesmente

. Ou, se você é o suficiente para não convencional trama

o contrário para ambas as linhas e os pontos observados, então você obtém o inverso do que como a inclinação.

s_{y} / \hat{ρ} s_{x}

$s_y/\hat{\rho}s_x$

s_{y} / s_{x}

$s_y/s_x$

y

$y$

x

$x$

Henry

@ Henry - essa é uma resposta bastante interessante. Não duvido necessariamente de sua validade, mas uma coisa que me surpreende é que a correlação / covariância entre

está completamente ausente da resposta. Certamente esta deve ser relevante para a resposta?

Y

$Y$

X

$X$

probabilityislogic

Métodos para ajustar um modelo de erro de medição “simples”

Respostas: