Métodos para ajustar um modelo de erro de medição “simples”

13

Estou procurando métodos que possam ser usados ​​para estimar o modelo de erro de medição "OLS".

yi=Yi+ey,i
xi=Xi+ex,i
Yi=α+βXi

Onde os erros são independentes normais com variações desconhecidas e . O OLS "Padrão" não funcionará neste caso.σy2σx2

A Wikipedia tem algumas soluções desagradáveis ​​- as duas são forçadas a assumir que a "taxa de variação" ou " taxa de confiabilidade " é conhecido, onde é a variação do regressor verdadeiro . Não estou satisfeito com isso, porque como alguém que não conhece as variações conhece sua proporção?δ=σy2σx2λ=σX2σx2+σX2σX2Xi

De qualquer forma, existem outras soluções além dessas duas que não exigem que eu "saiba" nada sobre os parâmetros?

Soluções para apenas a interceptação e a inclinação são boas.

probabilityislogic
fonte
o próprio artigo da Wikipedia fornece a resposta para esta pergunta. Se você assumir a normalidade do regressor "true", precisará de mais condições nas distribuições dos erros. Se o regressor verdadeiro não é gaussiano, você tem alguma esperança. Veja Reiersol (1950) .
cardeal
Além disso, o que você quer dizer com "Soluções para apenas a interceptação e a inclinação estão corretas". Esses são seus únicos dois parâmetros! Ou você esperava tentar recuperar o regressor "verdadeiro" também?
cardeal
@ cardinal - quis dizer que não me importava particularmente com os dois parâmetros de escala e, como você diz, com o regressor "verdadeiro" . Xi
probabilityislogic
Entendo. Isso faz sentido.
cardeal

Respostas:

7

Existem várias possibilidades descritas por JW Gillard em Uma visão geral histórica da regressão linear com erros nas duas variáveis

Se você não estiver interessado em detalhes ou razões para a escolha de um método sobre outro, basta ir com o mais simples, que é o de traçar a linha através do centróide com inclinação β = s y / s x , ou seja, a razão entre os desvios padrão observados (fazendo o sinal do declive o mesmo que o sinal da covariância de x e y ); como você provavelmente pode trabalhar fora, isso dá uma interceptação na y -axis de α = ˉ y - beta ˉ x .(x¯,y¯)β^=sy/sxxyyα^=y¯β^x¯.

Os méritos dessa abordagem específica são

  1. fornece a mesma linha comparando contra y como y contra x ,xyyx
  2. é invariável à escala, portanto você não precisa se preocupar com unidades,
  3. está entre as duas linhas de regressão linear comuns
  4. cruza-os onde eles se cruzam no centróide das observações e
  5. é muito fácil de calcular.

A inclinação é a média geométrica das inclinações das duas inclinações de regressão linear ordinárias. Também é o que você obteria se padronizasse as observações e y , desenhasse uma linha a 45 ° (ou 135 ° se houver correlação negativa) e depois padronizasse a linha. Também poderia ser visto como equivalente a fazer uma suposição implícita de que as variações dos dois conjuntos de erros são proporcionais às variações dos dois conjuntos de observações; Até onde eu sei, você alega não saber de que maneira isso está errado.xy

Aqui está um código R para ilustrar: a linha vermelha no gráfico é regressão OLS de em X , a linha azul é regressão OLS de X em Y e a linha verde é esse método simples. Observe que a inclinação deve ser de cerca de 5.YXXY

X0 <- 1600:3600
Y0 <- 5*X0 + 700
X1 <- X0 + 400*rnorm(2001)
Y1 <- Y0 + 2000*rnorm(2001)
slopeOLSXY  <- lm(Y1 ~ X1)$coefficients[2]     #OLS slope of Y on X
slopeOLSYX  <- 1/lm(X1 ~ Y1)$coefficients[2]   #Inverse of OLS slope of X on Y
slopesimple <- sd(Y1)/sd(X1) *sign(cov(X1,Y1)) #Simple slope
c(slopeOLSXY, slopeOLSYX, slopesimple)         #Show the three slopes
plot(Y1~X1)
abline(mean(Y1) - slopeOLSXY  * mean(X1), slopeOLSXY,  col="red")
abline(mean(Y1) - slopeOLSYX  * mean(X1), slopeOLSYX,  col="blue")
abline(mean(Y1) - slopesimple * mean(X1), slopesimple, col="green")
Henry
fonte
@Henry, sua definição de β não faz qualquer sentido para mim. Faltam alguns "chapéus"? β^
cardeal
É para ser o desvio padrão observado de dividido pelo desvio padrão observado de { x i } . Eu irei mudar σ para s #{yi}{xi}σs
Henry
@ Henry, você pode esclarecer alguns de seus comentários? Parece-me que algo está errado com base na sua descrição atual. Deixe β x y ser o declive assumindo que y é a resposta e x é o preditor. Deixe β y x ser o declive assumindo que x é a resposta e y o preditor. Em seguida, β x y = ρ s y / s x e β y x = ρ s x / sβ^xyyxβ^yxxyβ^xy=ρ^sy/sx , onde ρ é a amostrade correlaçãoentre x e y . Daí a média geométrica das duas estimativas de inclinação é apenas ρ . β^yx=ρ^sx/syρ^xyρ^
cardeal
@ cardinal: Não - quando vejo quero dizer que a inclinação é 1 / b, pois pode ser reescrita como y = x / b - c / b . Quando tenta desenhar as duas linhas OLS no mesmo gráfico, juntamente com os pontos observados (por exemplo, com y no eixo vertical e x , no eixo horizontal) tem de inverter uma das pistas. Então, eu quis dizer que você tome a média geométrica de ρ s y / s x e s y /x=by+c1/by=x/bc/byxρ^sy/sx, que é simplesmentesy/sx. Ou, se você é o suficiente para não convencional tramayexo contrário para ambas as linhas e os pontos observados, então você obtém o inverso do que como a inclinação. sy/ρ^sxsy/sxyx
Henry
@ Henry - essa é uma resposta bastante interessante. Não duvido necessariamente de sua validade, mas uma coisa que me surpreende é que a correlação / covariância entre e X está completamente ausente da resposta. Certamente esta deve ser relevante para a resposta? YX
probabilityislogic