O que um Gráfico de Variável Adicionado (Gráfico de Regressão Parcial) explica em uma regressão múltipla?

17

Eu tenho um modelo de conjunto de dados Movies e usei a regressão:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

O que deu a saída:

insira a descrição da imagem aqui

Agora tentei trabalhar com algo chamado Added Variable Plot pela primeira vez e obtive a seguinte saída:

avPlots(model, id.n=2, id.cex=0.7)

Gráfico variável adicionado

O problema é que tentei entender o gráfico de variáveis ​​adicionadas usando o google, mas não consegui entender sua profundidade, vendo o gráfico que entendi que seu tipo de representação de inclinação com base em cada variável de entrada relacionada à saída.

Posso obter mais detalhes, como justifica a normalização dos dados?

Abhishek Choudhary
fonte
4
@Silverfish deu uma boa resposta à sua pergunta. No pequeno detalhe do que fazer com seu conjunto de dados específico, um modelo linear parece uma péssima idéia. Os votos são manifestamente uma variável não negativa altamente distorcida, portanto, algo como um modelo de Poisson é indicado. Veja, por exemplo, blog.stata.com/tag/poisson-regression Observe que esse modelo não o compromete com a suposição de que a distribuição marginal da resposta é exatamente Poisson, assim como um modelo linear padrão não o compromete a postular a normalidade marginal.
Nick Cox
2
Uma maneira de ver que o modelo linear funciona mal é notar que ele prevê valores negativos para uma fração substancial de casos. Veja a região esquerda de ajustado no primeiro gráfico residual. =0
Nick Cox
Obrigado Nick Cox, aqui descobri que existe uma natureza não negativa altamente distorcida, devo considerar o modelo de Poisson, existe algum link que me dê uma idéia adequada sobre qual modelo usar em que cenário com base no conjunto de dados e tentei usar Regressão polinomial para o meu conjunto de dados, será essa a escolha certa aqui ...
Abhishek Choudhary
1
Eu já dei um link que, por sua vez, fornece mais referências. Desculpe, mas não entendo a segunda metade da sua pergunta com referência a "cenário baseado no conjunto de dados" e "regressão polinomial". Eu suspeito que você precisa fazer uma nova pergunta com muito mais detalhes.
Nick Cox
Qual pacote você instalou para que R reconheça a função avPlots?
Isa

Respostas:

36

Para ilustração, tomarei um modelo de regressão menos complexo onde as variáveis ​​preditoras e podem ser correlacionadas. Digamos que as inclinações e são ambas positivas, portanto podemos dizer que (i) aumenta à medida que aumenta, se é mantido constante, pois é positivo; (ii) aumenta à medida que aumenta, se é mantido constante, uma vez que é positivo.Y=β1+β2X2+β3X3+ϵX2X3β2β3YX2X3β2YX3X2β3

Observe que é importante interpretar múltiplos coeficientes de regressão considerando o que acontece quando as outras variáveis ​​são mantidas constantes ("ceteris paribus"). Suponha que eu apenas regredi contra com um modelo . Meu estimativa para o coeficiente de inclinação , que mede o efeito em de um aumento de uma unidade na sem segurando X 3 constante, pode ser diferente da minha estimativa de β 2 a partir da regressão múltipla - que também mede o efeito sobre Y de um aumento de uma unidade em XYX2Y=β1+β2X2+ϵβ2YX2 X3β2YX2 , masnãoesperaX3 constante. O problema com minha estimativaβ2^ é que ele sofreum viés de variável omitidaseX2 eX3 estão correlacionados.

Para entender por que, imagine X2 e estão negativamente correlacionados. Agora, quando eu aumento em uma unidade, sei que o valor médio de deve aumentar desde . Mas, como aumenta, se não segurar constante, então tende a diminuir, e desde presente tenderá a reduzir o valor médio de . Portanto, o efeito geral de um aumento de uma unidade em parecerá mais baixo se eu permitir que também varie, portanto, . As coisas pioram com mais forçaX3X2Yβ2>0 0X2X3X3β3>0 0YX2X3β2<β2X2X 3 X 3 β 3 β 2 < 0 X 2 Ye estão correlacionados, e quanto maior o efeito de a - em um caso muito grave, podemos encontrar mesmo sabendo que, ceteris paribus, tem uma influência positiva em !X3X3β3β2<0 0X2Y

Espero que agora você possa ver por que desenhar um gráfico de relação a seria uma maneira ruim de visualizar o relacionamento entre e em seu modelo. No meu exemplo, seu olho seria atraído para uma linha que melhor se ajusta à inclinação que não reflete o do seu modelo de regressão. Na pior das hipóteses, seu modelo pode prever que aumenta à medida que aumenta (com outras variáveis ​​mantidas constantes) e, no entanto, os pontos no gráfico sugerem que diminui à medida que aumenta.YX2YX2β2^β2^YX2YX2

O problema é que, no gráfico simples de contra , as outras variáveis ​​não são mantidas constantes. Esse é o insight crucial sobre o benefício de um gráfico variável adicionado (também chamado de gráfico de regressão parcial) - ele usa o teorema de Frisch-Waugh-Lovell para "parcializar" o efeito de outros preditores. Os eixos horizontais e verticais no gráfico são talvez mais facilmente entendidos * como " após a contabilização de outros preditores" e " após a contabilização de outros preditores". Agora você pode observar a relação entre e depois que todos os outros preditores tiverem sido contabilizadosYX2X2YYX2 . Assim, por exemplo, a inclinação que você pode ver em cada gráfico agora reflete os coeficientes de regressão parciais do seu modelo de regressão múltipla original.

Muito do valor de um gráfico de variável adicionado vem no estágio de diagnóstico de regressão, especialmente porque os resíduos no gráfico de variável adicionado são precisamente os resíduos da regressão múltipla original. Isso significa que discrepâncias e heterocedasticidade podem ser identificadas de maneira semelhante a quando se observa o gráfico de um modelo de regressão simples e não múltiplo. Pontos influentes também podem ser vistos - isso é útil na regressão múltipla, pois alguns pontos influentes não são óbvios nos dados originais antes de você levar em consideração as outras variáveis. No meu exemplo, um valor moderadamente grande pode não parecer fora de lugar na tabela de dados, mas se o valor for grande também, apesar de eX2X3X2X3sendo negativamente correlacionada, a combinação é rara. "Contabilizando outros preditores", esse valor é extraordinariamente grande e destacará mais proeminentemente o gráfico de variáveis ​​adicionado.X2

Mais tecnicamente, eles seriam os resíduos da execução de duas outras regressões múltiplas: os resíduos da regressão contra todos os preditores que não vão no eixo vertical, enquanto os resíduos da regressão contra todos os outros preditores vão no eixo horizontal. Isso é realmente o que as lendas de " deram aos outros" e " deram aos outros" estão dizendo. Como o resíduo médio de ambas as regressões é zero, o ponto médio de ( dado a outros,YX2X2YX2X2Ydado outros) será apenas (0, 0), o que explica por que a linha de regressão no gráfico de variáveis ​​adicionadas sempre passa pela origem. Mas, muitas vezes, acho que mencionar os eixos são apenas resíduos de outras regressões confunde as pessoas (sem surpresa, talvez porque agora estamos falando de quatro regressões diferentes!), Por isso tentei não me deter no assunto. Compreenda-os como " deu a outros" e " deu a outros" e você deve ficar bem.X2Y

Silverfish
fonte
Não sabe ao certo como perguntar isso, mas há algo que realmente possa ser dito sobre as tendências vistas nas parcelas? Por exemplo, a qualidade do ajuste de cada tendência se relaciona com a independência de cada um dos preditores, ou algo assim?
precisa saber é o seguinte
2
Existe um método para converter as unidades de resíduos nos eixos horizontal e vertical em unidades das variáveis ​​subjacentes?
Nicholas G
Essa é uma excelente resposta. Mas existe um erro de digitação no seu primeiro parágrafo (variáveis ​​preditoras)? Eles deveriam ser X2 e X3?
detly 25/07
@Detly Obrigado, mudou!
Silverfish
Silverfish, você sabe a resposta para a pergunta @NicholasG? Existe alguma maneira de tornar os resíduos interpretáveis ​​em termos de unidades da variável X?
Parseltongue
-1

existe algo que possa realmente ser dito sobre as tendências vistas nas parcelas

Certamente, suas inclinações são os coeficientes de regressão do modelo original (coeficientes de regressão parciais, todos os outros preditores mantidos constantes)

anônimo
fonte