Regressão com variável independente inversa

10

Vamos supor que eu tenha um vetor - de variáveis ​​dependentes e um vetor - de variável independente. Quando é plotado contra , vejo que há uma relação linear (tendência ascendente) entre os dois. Agora, isso também significa que há uma tendência de queda linear entre e .NYNXY1XYX

Agora, se eu executar a regressão: e obter o valor ajustadoY=βX+ϵY^=β^X

Então eu executo a regressão: e obtenho o valor ajustado Y=α1X+ϵY~=α^1X

Os dois valores previstos, e serão aproximadamente iguais?Y^Y~

Mayou
fonte

Respostas:

10

 Quando Y é plotado contra , vejo que há uma relação linear (tendência ascendente) entre os dois. Agora, isso também significa que há uma tendência linear de queda entre Y e X1X

A última frase está errada: há uma tendência de queda, mas não é linear: Y ~ 1 / X Y ~ X

I utilizado um como função além de um pouco de ruído em . Como você pode ver, enquanto a plotagem de contra produz um comportamento linear, contra está longe de ser linear.f(x)=1xYY1XYX

(@whuber salienta que o gráfico contra não parece homoscedástico. Acho que parece ter uma variação maior para um baixo porque a densidade muito maior de casos leva a uma faixa maior, que é essencialmente o que nós Na verdade, os dados são homocedásticos: eu costumava gerar os dados, portanto não há dependência do tamanho de )Y1XYY = 1 / X + rnorm (length (X), sd = 0.1)X

Então, em geral, o relacionamento é muito não linear. Ou seja, a menos que seu intervalo de seja tão estreito que você possa aproximarAqui está um exemplo:Xd1xdx=1x2const.

Y ~ 1 / X Y ~ X

Bottomline:

  • Em geral, é muito difícil aproximar uma função do tipo por uma função linear ou polinomial. E sem termo de compensação, você nunca terá uma aproximação razoável.1X
  • Se o intervalo for estreito o suficiente para permitir uma aproximação linear, você não conseguirá, a partir dos dados, adivinhar que a relação deve ser e não linear ( ).X1XX
cbeleites descontentes com o SX
fonte
Você começa com uma suposição inválida: o OP nunca afirmou que e são linearmente relacionados. A única afirmação era que e parecem estar linearmente relacionados (com uma inclinação negativa). Isso, é claro, indica que e não estão linearmente relacionados. Eu acho que essa é uma partida tão severa do que a pergunta propõe que o restante do seu post só pode enganar ainda mais os leitores. YXY1/XYX
whuber
2
@ whuber: Sinto muito, mas parece ser bastante densa agora. A pergunta diz: "Quando Y é plotado contra 1 / X, vejo que há uma relação linear (tendência ascendente)". Foi o que tentei descrever na 1ª e na 3ª imagem: Y acima de 1 / X aumentando linearmente. Em seguida, plotei o Y correspondente sobre X (não linear, decrescente). Onde eu entendo mal o OP?
cbeleites descontente com SX
11
Não se desculpe - simplesmente interpretei mal sua postagem (transpondo os rótulos dos eixos X na primeira imagem)! A culpa é toda minha. Por isso, voto positivo sua resposta, que é correta e informativa. Porém, se você tiver uma chance, pode comentar o efeito dessa transformação na homoscedasticidade (ou na falta dela) dos resíduos (que podem ser detectados no gráfico vs ). Y1/X
whuber
Obrigado pelas observações sobre homoscedasticidade. Ao transformar a variável independente , você não altera a homoscedasticidade da resposta - mas sua aparência certamente pode mudar, como você indica, o que é útil saber. (Vimos este fenômeno em vários outros lugares, onde as pessoas mis-atributo heterocedasticidade a meras diferenças nas populações de grupo, por exemplo.)
whuber
Resposta e comentários muito completos! Obrigado @cbeleites e @whuber!
May
2

Não vejo razão para eles serem "aproximadamente iguais" em geral - mas o que exatamente você quer dizer com aproximadamente igual?

Aqui está um exemplo de brinquedo:

library(ggplot2)
n <- 10^3
df <- data.frame(x=runif(n, min=1, max=2))
df$y <- 5 / df$x + rnorm(n)
p <- (ggplot(df, aes(x=x, y=y)) +
      geom_point() +
      geom_smooth(method="lm", formula=y ~ 0 + x) +  # Blue, OP's y hat
      geom_smooth(method="lm", formula=y ~ 0 + I(x^-1), color="red"))  # Red, OP's y tilde
p

A imagem:

Eu diria que estes estão longe de ser "aproximadamente iguais"

O modelo "azul" seria muito melhor se fosse permitido ter um termo de interceptação (ou seja, constante) ...

Adrian
fonte
É difícil dizer o que você está fazendo com o modelo azul, mas certamente não é nada como o que o OP descreve! O vermelho está muito mais próximo da situação apresentada na pergunta.
whuber
@cbeleites A falta de compensação explica o que de outra forma era um mistério. Adrian, você está correto - mas duvido que seu exemplo tenha muita influência nos dados do OP. A publicação descreve uma situação em que o gráfico vs (sem qualquer interceptação) parece ser o bom, enquanto você ilustra uma situação em que o bom relacionamento está entre e e, portanto, é claro que o vs fit é péssimo. Y1/XYXY1/X
whuber