Estou investigando a interação entre duas variáveis ( e ). Existe uma grande correlação linear entre essas variáveis com . Pela natureza do problema, não posso dizer nada sobre a causa (se causa ou o contrário). Eu gostaria de estudar os desvios da linha de regressão, a fim de detectar valores extremos. Para fazer isso, eu posso construir uma regressão linear de como uma função de ou o contrário. Minha escolha de ordem variável pode influenciar meus resultados?
regression
outliers
linear-model
George
fonte
fonte
Respostas:
Certamente pode (na verdade, até importa em relação às suposições em seus dados - você apenas faz suposições sobre a distribuição do resultado, dada a covariável). Nessa perspectiva, você pode procurar um termo como "variação de previsão inversa". De qualquer maneira, a regressão linear não diz nada sobre causalidade! Na melhor das hipóteses, você pode dizer algo sobre causalidade através de um design cuidadoso.
fonte
Para tornar o caso simétrico, pode-se regredir a diferença entre as duas variáveis ( ) versus seu valor médio.Δx
fonte
A regressão padrão minimiza a distância vertical entre os pontos e a linha, portanto, alternar as 2 variáveis agora minimiza a distância horizontal (dado o mesmo gráfico de dispersão). Outra opção (que tem vários nomes) é minimizar a distância perpendicular, isso pode ser feito usando componentes principais.
Aqui está um código R que mostra as diferenças:
Para procurar outliers, basta plotar os resultados da análise de componentes principais.
Você também pode querer olhar para:
fonte
Suas variáveis x1 e x2 são colineares. Na presença de multicolinearidade, suas estimativas de parâmetros ainda são imparciais, mas sua variação é grande, ou seja, sua inferência sobre a significância das estimativas de parâmetros não é válida e sua previsão terá grandes intervalos de confiança.
A interpretação das estimativas de parâmetros também é difícil. Na estrutura de regressão linear, a estimativa de parâmetro em x1 é a mudança em Y para uma mudança de unidade em x1, dado que todas as outras variáveis exógenas no modelo são mantidas constantes. No seu caso, x1 e x2 são altamente correlacionados e você não pode manter x2 constante quando x1 está sendo alterado.
fonte