Suponha que eu tenha um conjunto de dados no qual a incerteza nas medições (provenientes da propagação de erros sistemáticos do aparato de medição) seja diferente para cada ponto. Se eu fizer uma regressão linear no conjunto de dados, como calculo a incerteza na inclinação? Eu gostaria de um procedimento explícito ou fórmula.
linear-model
measurement-error
errors-in-variables
Iván Mauricio Burbano
fonte
fonte
Respostas:
Podemos modelar o experimento como onde denota valores verdadeiros, são erros de medição, são seus componentes "fixos" independentes da observação (que podem surgir da calibração incorreta dos sensores) e variam de observação para observação e correspondem a muitos fatores possíveis que tratamos como aleatórios.y i = y * i + ~ v i ~ u i = ˉ u + v i ~ v i = ˉ v + u i x * i , y * i ~ L i , ~ v i ˉ u , ˉ v u , v
A regressão linear simples é e a estimativa OLS da inclinação é O que obtemos é, no entanto,β = C O v ( x * , y * )
Agora vamos supor que não esteja correlacionado com e entre si (uma suposição bastante forte que pode ser aprimorada se tivermos mais inferências sobre a natureza dos erros). Então nossa estimativa é Podemos estimar como variação amostral de . Também precisamos estimar . Se temos um experimento em que podemos observar várias vezes, uma abordagem simples é estimar ].v , u x∗, y∗
Agora podemos usar nosso calculado com, por exemplo, o método de autoinicialização e corrigi-lo para para que .σ^2β~ β^= β~/ λ^
fonte
Eu acho que a resposta dada por @yshilov é definitivamente incrível, considerando o erro de medição no termo do erro e, significativamente, deduz o resultado
Para elaborar, essa versão beta possui propriedades especiais que é um estimador enviesado, mas enviesado para 0. Especificamente, para regressão linear,E( β^1) = β1⋅ [ σ2x+σx δσ2x+ 2 σx δ+σ2δ]
A prova é a seguinte: em regressão linear simples, lembre-se No caso de erro de medição, temos , e , então obtemos Supondo que , , e a variação do valor preditivo verdadeiro
fonte
Eu tenho um problema semelhante - publicado aqui - e ainda não tenho uma resposta certa. O que eu fiz no momento é simplesmente reunir um conjunto de Xs muito semelhantes e verificar se há uma grande variação para Y nessas linhas. Outro tipo de abordagem pode ser uma simulação: você usa um único X do seu conjunto de dados, mas replica as linhas seguindo o erro sistemático dos preditores (algo como rnorm (..., 0,0,3)). O intervalo de confiança para a inclinação pode ser algo semelhante ao intervalo sistemático de erros.
fonte
Eu recomendaria uma inicialização paramétrica nos dados. Isso significa gerar novos conjuntos de dados semelhantes ao conjunto de dados real, mas diferentes na extensão implícita pela sua incerteza em cada observação.
Aqui está um pseudocódigo para isso. Observe que estou usando entradas de vetor paraΔ
rnorm
, como é normal na linguagem R. Também estou assumindo que o que você está chamando são erros padrão.Então observe a distribuição dos valores em r.
fonte