Vamos supor que eu tenha um vetor - de variáveis dependentes e um vetor - de variável independente. Quando é plotado contra , vejo que há uma relação linear (tendência ascendente) entre os dois. Agora, isso também significa que há uma tendência de queda linear entre e .NYNXY1XYX
Agora, se eu executar a regressão:
e obter o valor ajustadoY=β∗X+ϵY^=β^X
Então eu executo a regressão: e obtenho o valor ajustado Y=α∗1X+ϵY~=α^1X
Os dois valores previstos, e serão aproximadamente iguais?Y^Y~
Quando Y é plotado contra , vejo que há uma relação linear (tendência ascendente) entre os dois. Agora, isso também significa que há uma tendência linear de queda entre Y e X1X
A última frase está errada: há uma tendência de queda, mas não é linear:
I utilizado um como função além de um pouco de ruído em . Como você pode ver, enquanto a plotagem de contra produz um comportamento linear, contra está longe de ser linear.f(x)=1xYY1XYX
(@whuber salienta que o gráfico contra não parece homoscedástico. Acho que parece ter uma variação maior para um baixo porque a densidade muito maior de casos leva a uma faixa maior, que é essencialmente o que nós Na verdade, os dados são homocedásticos: eu costumava gerar os dados, portanto não há dependência do tamanho de )Y1XYY = 1 / X + rnorm (length (X), sd = 0.1)X
Então, em geral, o relacionamento é muito não linear. Ou seja, a menos que seu intervalo de seja tão estreito que você possa aproximarAqui está um exemplo:Xd1xdx=−1x2≈const.
Bottomline:
Em geral, é muito difícil aproximar uma função do tipo por uma função linear ou polinomial. E sem termo de compensação, você nunca terá uma aproximação razoável.1X
Se o intervalo for estreito o suficiente para permitir uma aproximação linear, você não conseguirá, a partir dos dados, adivinhar que a relação deve ser e não linear ( ).X1XX
Você começa com uma suposição inválida: o OP nunca afirmou que e são linearmente relacionados. A única afirmação era que e parecem estar linearmente relacionados (com uma inclinação negativa). Isso, é claro, indica que e não estão linearmente relacionados. Eu acho que essa é uma partida tão severa do que a pergunta propõe que o restante do seu post só pode enganar ainda mais os leitores. YXY1/XYX
whuber
2
@ whuber: Sinto muito, mas parece ser bastante densa agora. A pergunta diz: "Quando Y é plotado contra 1 / X, vejo que há uma relação linear (tendência ascendente)". Foi o que tentei descrever na 1ª e na 3ª imagem: Y acima de 1 / X aumentando linearmente. Em seguida, plotei o Y correspondente sobre X (não linear, decrescente). Onde eu entendo mal o OP?
cbeleites descontente com SX
11
Não se desculpe - simplesmente interpretei mal sua postagem (transpondo os rótulos dos eixos X na primeira imagem)! A culpa é toda minha. Por isso, voto positivo sua resposta, que é correta e informativa. Porém, se você tiver uma chance, pode comentar o efeito dessa transformação na homoscedasticidade (ou na falta dela) dos resíduos (que podem ser detectados no gráfico vs ). Y1/X
whuber
Obrigado pelas observações sobre homoscedasticidade. Ao transformar a variável independente , você não altera a homoscedasticidade da resposta - mas sua aparência certamente pode mudar, como você indica, o que é útil saber. (Vimos este fenômeno em vários outros lugares, onde as pessoas mis-atributo heterocedasticidade a meras diferenças nas populações de grupo, por exemplo.)
whuber
Resposta e comentários muito completos! Obrigado @cbeleites e @whuber!
May
2
Não vejo razão para eles serem "aproximadamente iguais" em geral - mas o que exatamente você quer dizer com aproximadamente igual?
Aqui está um exemplo de brinquedo:
library(ggplot2)
n <- 10^3
df <- data.frame(x=runif(n, min=1, max=2))
df$y <- 5 / df$x + rnorm(n)
p <- (ggplot(df, aes(x=x, y=y)) +
geom_point() +
geom_smooth(method="lm", formula=y ~ 0 + x) + # Blue, OP's y hat
geom_smooth(method="lm", formula=y ~ 0 + I(x^-1), color="red")) # Red, OP's y tilde
p
A imagem:
O modelo "azul" seria muito melhor se fosse permitido ter um termo de interceptação (ou seja, constante) ...
É difícil dizer o que você está fazendo com o modelo azul, mas certamente não é nada como o que o OP descreve! O vermelho está muito mais próximo da situação apresentada na pergunta.
whuber
@cbeleites A falta de compensação explica o que de outra forma era um mistério. Adrian, você está correto - mas duvido que seu exemplo tenha muita influência nos dados do OP. A publicação descreve uma situação em que o gráfico vs (sem qualquer interceptação) parece ser o bom, enquanto você ilustra uma situação em que o bom relacionamento está entre e e, portanto, é claro que o vs fit é péssimo. Y1/XYXY1/X
Não vejo razão para eles serem "aproximadamente iguais" em geral - mas o que exatamente você quer dizer com aproximadamente igual?
Aqui está um exemplo de brinquedo:
A imagem:
O modelo "azul" seria muito melhor se fosse permitido ter um termo de interceptação (ou seja, constante) ...
fonte