A ordem variável importa na regressão linear

9

Estou investigando a interação entre duas variáveis ( e ). Existe uma grande correlação linear entre essas variáveis com . Pela natureza do problema, não posso dizer nada sobre a causa (se causa ou o contrário). Eu gostaria de estudar os desvios da linha de regressão, a fim de detectar valores extremos. Para fazer isso, eu posso construir uma regressão linear de como uma função de ou o contrário. Minha escolha de ordem variável pode influenciar meus resultados? $x_1$ $x_2$ $r>0.9$ $x_1$ $x_2$ $x_1$ $x_2$

regression outliers linear-model George
fonte

Na busca de outliers, você deve primeiro regredir sua variável dependente em relação a e e procurar por outliers.

x_{1}

$x_{1}$

x_{2}

$x_{2}$

21411 schenectady

Encontrar discrepâncias é o objetivo de sua investigação? Nesse caso, primeiro você deve regredir sua variável dependente contra e e, em seguida, executar testes externos. Se encontrar uma causa possível, considere realizar um experimento planejado. Se o objetivo do seu experimento é encontrar um relacionamento entre suas duas variáveis independentes, observar a ocorrência de dados coletados não será suficiente.

x_{1}

$x_{1}$

x_{2}

$x_{2}$

21411 schenectady

Não está claro para mim o que você quer dizer com discrepantes. Se houver discrepâncias em seus dados, elas afetarão o cálculo da linha de regressão. Por que você está procurando discrepantes em e simultaneamente?

x_{1}

$x_1$

x_{2}

$x_2$

DQdlM

@schenectady Use $$ para o LaTeX nos comentários, por favor.

3

Certamente pode (na verdade, até importa em relação às suposições em seus dados - você apenas faz suposições sobre a distribuição do resultado, dada a covariável). Nessa perspectiva, você pode procurar um termo como "variação de previsão inversa". De qualquer maneira, a regressão linear não diz nada sobre causalidade! Na melhor das hipóteses, você pode dizer algo sobre causalidade através de um design cuidadoso.

Nick Sabbe
fonte

3

Para tornar o caso simétrico, pode-se regredir a diferença entre as duas variáveis ( ) versus seu valor médio. $\Delta x$

Boris Gorelik
fonte

3

A regressão padrão minimiza a distância vertical entre os pontos e a linha, portanto, alternar as 2 variáveis agora minimiza a distância horizontal (dado o mesmo gráfico de dispersão). Outra opção (que tem vários nomes) é minimizar a distância perpendicular, isso pode ser feito usando componentes principais.

Aqui está um código R que mostra as diferenças:

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

Para procurar outliers, basta plotar os resultados da análise de componentes principais.

Você também pode querer olhar para:

Bland e Altman (1986), Métodos estatísticos para avaliar a concordância entre dois métodos de medição clínica. Lancet, pp 307-310

Greg Snow
fonte

0

Suas variáveis x1 e x2 são colineares. Na presença de multicolinearidade, suas estimativas de parâmetros ainda são imparciais, mas sua variação é grande, ou seja, sua inferência sobre a significância das estimativas de parâmetros não é válida e sua previsão terá grandes intervalos de confiança.

A interpretação das estimativas de parâmetros também é difícil. Na estrutura de regressão linear, a estimativa de parâmetro em x1 é a mudança em Y para uma mudança de unidade em x1, dado que todas as outras variáveis exógenas no modelo são mantidas constantes. No seu caso, x1 e x2 são altamente correlacionados e você não pode manter x2 constante quando x1 está sendo alterado.

yeveee
fonte

A ordem variável importa na regressão linear

Respostas: