Erro sistemático / de medição em regressão linear

8

Suponha que eu tenha um conjunto de dados no qual a incerteza nas medições (provenientes da propagação de erros sistemáticos do aparato de medição) seja diferente para cada ponto. Se eu fizer uma regressão linear no conjunto de dados, como calculo a incerteza na inclinação? Eu gostaria de um procedimento explícito ou fórmula.(xEu,yEu)(ΔxEu,ΔyEu)

Iván Mauricio Burbano
fonte
2
Você tem idéia de qual erro de medição é maior?
Dimitriy V. Masterov 18/01/19
1
Pelos deltas, você quer dizer diferença entre medições seqüenciais? Seus dados são seqüenciais? Você espera que o erro seja correlacionado? Você espera que a correlação decaia? Você tem algum tipo de replicação independente? Mais informações são necessárias para fornecer uma resposta concreta.
usar o seguinte comando
O termo que você está procurando é propagação de erro. Você tem erros no lado da entrada e calcula (mais especificamente: estimar) dois parâmetros a partir dele. Infelizmente, o nome "regressão linear" descreve apenas um modelo (popular), mas não o método pelo qual você estima os parâmetros. Para os métodos mais usados, você provavelmente pode procurar a solução (por exemplo, mínimos quadrados). Caso contrário, você pode calculá-lo analiticamente ou aproximar-se por avaliação numérica.
querubim

Respostas:

4

Podemos modelar o experimento como onde denota valores verdadeiros, são erros de medição, são seus componentes "fixos" independentes da observação (que podem surgir da calibração incorreta dos sensores) e variam de observação para observação e correspondem a muitos fatores possíveis que tratamos como aleatórios.y i = y * i + ~ v i ~ u i = ˉ u + v i ~ v i = ˉ v + u i x * i , y * i ~ L i , ~ v i ˉ u , ˉ v u , v

xEu=xEu+você~Eu
yEu=yEu+v~Eu
você~Eu=você¯+vEu
v~Eu=v¯+vocêEu
xEu,yEuvocê~Eu,v~Euvocê¯,v¯você,v

A regressão linear simples é e a estimativa OLS da inclinação é O que obtemos é, no entanto,β = C O v ( x * , y * )

yEu=α+βxEu+eEu
˜ β =Cov(x,y)
β^=Cov(x,y)Vumar(x)
β~=Cov(x,y)Vumar(x)=Cov(x+você,y+v)Vumar(x+você)=Cov(x,y)+Cov(x,v)+Cov(y,você)+Cov(você,v)Vumar(x)+Vumar(você)+2Cov(x,você)

Agora vamos supor que não esteja correlacionado com e entre si (uma suposição bastante forte que pode ser aprimorada se tivermos mais inferências sobre a natureza dos erros). Então nossa estimativa é Podemos estimar como variação amostral de . Também precisamos estimar . Se temos um experimento em que podemos observar várias vezes, uma abordagem simples é estimar ].v,vocêx,y

β~=βσx2σx2+σvocê2βσ^x2-σ^você2σ^x2=βλ^
σ^x2xEuσvocê2xEuσvocê2=E[σx2|xEu

Agora podemos usar nosso calculado com, por exemplo, o método de autoinicialização e corrigi-lo para para que .σ^β~2β^=β~/λ^

σ^β^2=σ^β~2λ^2
yshilov
fonte
3

Eu acho que a resposta dada por @yshilov é definitivamente incrível, considerando o erro de medição no termo do erro e, significativamente, deduz o resultado

β~=βσx2σx2+σvocê2

Para elaborar, essa versão beta possui propriedades especiais que é um estimador enviesado, mas enviesado para 0. Especificamente, para regressão linear,E(β^1)=β1[σx2+σxδσx2+2σxδ+σδ2]

A prova é a seguinte: em regressão linear simples, lembre-se No caso de erro de medição, temos , e , então obtemos Supondo que , , e a variação do valor preditivo verdadeiro

β^1=Eu=1n(xEu-x¯)yEuEu=1n(xEu-x¯)2
xEuO=xEuUMA=δEuyEuO=yEuUMA+ϵEuyEuUMA=β0 0+β1xEuUMA
yEuO=β0 0+β1(xEuO-δEu)+ϵEu=β0 0+β1xEuO+(ϵEu-β1δEu)
E(ϵEu)=E(δEu)=0 0vumar(ϵEu)=σϵ2vumar(δEu)=σδ2=1nEu=1n(δEu-δ¯)2σx2=(xEuUMA-xUMA¯)2ne correlação de verdadeiro preditor e erro , em seguida,σxδ=cov(xUMA,δ)=1nEu=1n(xEuUMA-xEuUMA¯)(δEu-δ¯)

cov(xEuO,δ)=E(xEuOδ)-E(xEuO)E(δ)=E(xEuOδ)=E[(xEuUMA+δ)δ]=E(xEuUMAδ)+E(δ2)
=[E(xEuUMAδ)-E(xEuUMA)E(δ)]+[vumar(δ)+[E(δ)]2]=cov(xEuUMA,δ)+σδ2=σxδ+σδ2
Então, por e propriedade de bilinearidade em covariância, a expectativa de é x¯=E(xEu)β^1
E(β^1)=E[Eu=1n(xEuO-x¯O)yEuOEu=1n(xEuO-x¯O)2]=E(Eu=1nxEuOyEuO)-E(Eu=1nx¯OyEuO)Eu=1nE[(xEuO-E(xEuO))2]=E(Eu=1nxEuOyEuO)-E(xEuO)E(Eu=1nyEuO)Eu=1nvumar(xEuO)
=Eu=1ncov(yEuO,xEuO)Eu=1nvumar(xEuO)=Eu=1ncov(β0 0+β1xEuO+ϵEu-β1δEu, xEuO)Eu=1nvumar(xEuO)=β1Eu=1nvumar(xEuO)-β1Eu=1ncov(xEuO,δEu)Eu=1nvumar(xEuO)
=β1[1-Eu=1ncov(xEuO,δEu)/nEu=1nvumar(xEuUMA+δEu)/n]=β1[1-σxδ+σδ2σx2+2cov(xEuUMA,δEu)+σδ2]=β1[σx2+σxδσx2+2σxδ+σδ2]
, conforme desejado. Portanto, o resultado está bem estabelecido.E(β^1)=β1[σx2+σxδσx2+2σxδ+σδ2]
son520804
fonte
1

Eu tenho um problema semelhante - publicado aqui - e ainda não tenho uma resposta certa. O que eu fiz no momento é simplesmente reunir um conjunto de Xs muito semelhantes e verificar se há uma grande variação para Y nessas linhas. Outro tipo de abordagem pode ser uma simulação: você usa um único X do seu conjunto de dados, mas replica as linhas seguindo o erro sistemático dos preditores (algo como rnorm (..., 0,0,3)). O intervalo de confiança para a inclinação pode ser algo semelhante ao intervalo sistemático de erros.

Paolo Nadalutti
fonte
0

Eu recomendaria uma inicialização paramétrica nos dados. Isso significa gerar novos conjuntos de dados semelhantes ao conjunto de dados real, mas diferentes na extensão implícita pela sua incerteza em cada observação.

Aqui está um pseudocódigo para isso. Observe que estou usando entradas de vetor para rnorm, como é normal na linguagem R. Também estou assumindo que o que você está chamando são erros padrão.Δ

For each b in 1...B:
    x_PB = rnorm(x, x_se)
    y_PB = rnorm(y, y_se)
    r[b] = cor(x_PB, y_PB)

Então observe a distribuição dos valores em r.

rcorty
fonte