O que um Gráfico de Variável Adicionado (Gráfico de Regressão Parcial) explica em uma regressão múltipla?

Eu tenho um modelo de conjunto de dados Movies e usei a regressão:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

O que deu a saída:

insira a descrição da imagem aqui

Agora tentei trabalhar com algo chamado Added Variable Plot pela primeira vez e obtive a seguinte saída:

avPlots(model, id.n=2, id.cex=0.7)

Gráfico variável adicionado

O problema é que tentei entender o gráfico de variáveis adicionadas usando o google, mas não consegui entender sua profundidade, vendo o gráfico que entendi que seu tipo de representação de inclinação com base em cada variável de entrada relacionada à saída.

Posso obter mais detalhes, como justifica a normalização dos dados?

regression data-visualization multiple-regression scatterplot Abhishek Choudhary
fonte

@Silverfish deu uma boa resposta à sua pergunta. No pequeno detalhe do que fazer com seu conjunto de dados específico, um modelo linear parece uma péssima idéia. Os votos são manifestamente uma variável não negativa altamente distorcida, portanto, algo como um modelo de Poisson é indicado. Veja, por exemplo, blog.stata.com/tag/poisson-regression Observe que esse modelo não o compromete com a suposição de que a distribuição marginal da resposta é exatamente Poisson, assim como um modelo linear padrão não o compromete a postular a normalidade marginal.

Nick Cox

Uma maneira de ver que o modelo linear funciona mal é notar que ele prevê valores negativos para uma fração substancial de casos. Veja a região esquerda de ajustado no primeiro gráfico residual.

= 0

$= 0$

Nick Cox

Obrigado Nick Cox, aqui descobri que existe uma natureza não negativa altamente distorcida, devo considerar o modelo de Poisson, existe algum link que me dê uma idéia adequada sobre qual modelo usar em que cenário com base no conjunto de dados e tentei usar Regressão polinomial para o meu conjunto de dados, será essa a escolha certa aqui ...

Abhishek Choudhary

Eu já dei um link que, por sua vez, fornece mais referências. Desculpe, mas não entendo a segunda metade da sua pergunta com referência a "cenário baseado no conjunto de dados" e "regressão polinomial". Eu suspeito que você precisa fazer uma nova pergunta com muito mais detalhes.

Nick Cox

Qual pacote você instalou para que R reconheça a função avPlots?

Isa

Para ilustração, tomarei um modelo de regressão menos complexo onde as variáveis preditoras e podem ser correlacionadas. Digamos que as inclinações e são ambas positivas, portanto podemos dizer que (i) aumenta à medida que aumenta, se é mantido constante, pois é positivo; (ii) aumenta à medida que aumenta, se é mantido constante, uma vez que é positivo. $Y = \beta_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$ $X_2$ $X_3$ $\beta_2$ $\beta_3$ $Y$ $X_2$ $X_3$ $\beta_2$ $Y$ $X_3$ $X_2$ $\beta_3$

Observe que é importante interpretar múltiplos coeficientes de regressão considerando o que acontece quando as outras variáveis são mantidas constantes ("ceteris paribus"). Suponha que eu apenas regredi contra com um modelo . Meu estimativa para o coeficiente de inclinação , que mede o efeito em de um aumento de uma unidade na sem segurando constante, pode ser diferente da minha estimativa de a partir da regressão múltipla - que também mede o efeito sobre de um aumento de uma unidade em $Y$ $X_2$ $Y = \beta_1' + \beta_2' X_2 + \epsilon'$ $\beta_2'$ $Y$ $X_2$ $X_3$ $\beta_2$ $Y$ $X_2$ , masnãoespera $X_3$ constante. O problema com minha estimativa $\hat{\beta_2'}$ é que ele sofreum viés de variável omitidase $X_2$ e $X_3$ estão correlacionados.

Para entender por que, imagine $X_2$ e estão negativamente correlacionados. Agora, quando eu aumento em uma unidade, sei que o valor médio de deve aumentar desde . Mas, como aumenta, se não segurar constante, então tende a diminuir, e desde presente tenderá a reduzir o valor médio de . Portanto, o efeito geral de um aumento de uma unidade em parecerá mais baixo se eu permitir que também varie, portanto, . As coisas pioram com mais força $X_3$ $X_2$ $Y$ $\beta_2 > 0$ $X_2$ $X_3$ $X_3$ $\beta_3 > 0$ $Y$ $X_2$ $X_3$ $\beta_2' < \beta_2$ $X_2$ e estão correlacionados, e quanto maior o efeito de a - em um caso muito grave, podemos encontrar mesmo sabendo que, ceteris paribus, tem uma influência positiva em ! $X_3$ $X_3$ $\beta_3$ $\beta_2' < 0$ $X_2$ $Y$

Espero que agora você possa ver por que desenhar um gráfico de relação a seria uma maneira ruim de visualizar o relacionamento entre e em seu modelo. No meu exemplo, seu olho seria atraído para uma linha que melhor se ajusta à inclinação que não reflete o do seu modelo de regressão. Na pior das hipóteses, seu modelo pode prever que aumenta à medida que aumenta (com outras variáveis mantidas constantes) e, no entanto, os pontos no gráfico sugerem que diminui à medida que aumenta. $Y$ $X_2$ $Y$ $X_2$ $\hat{\beta_2'}$ $\hat{\beta_2}$ $Y$ $X_2$ $Y$ $X_2$

O problema é que, no gráfico simples de contra , as outras variáveis não são mantidas constantes. Esse é o insight crucial sobre o benefício de um gráfico variável adicionado (também chamado de gráfico de regressão parcial) - ele usa o teorema de Frisch-Waugh-Lovell para "parcializar" o efeito de outros preditores. Os eixos horizontais e verticais no gráfico são talvez mais facilmente entendidos * como " após a contabilização de outros preditores" e " após a contabilização de outros preditores". Agora você pode observar a relação entre e depois que todos os outros preditores tiverem sido contabilizados $Y$ $X_2$ $X_2$ $Y$ $Y$ $X_2$ . Assim, por exemplo, a inclinação que você pode ver em cada gráfico agora reflete os coeficientes de regressão parciais do seu modelo de regressão múltipla original.

Muito do valor de um gráfico de variável adicionado vem no estágio de diagnóstico de regressão, especialmente porque os resíduos no gráfico de variável adicionado são precisamente os resíduos da regressão múltipla original. Isso significa que discrepâncias e heterocedasticidade podem ser identificadas de maneira semelhante a quando se observa o gráfico de um modelo de regressão simples e não múltiplo. Pontos influentes também podem ser vistos - isso é útil na regressão múltipla, pois alguns pontos influentes não são óbvios nos dados originais antes de você levar em consideração as outras variáveis. No meu exemplo, um valor moderadamente grande pode não parecer fora de lugar na tabela de dados, mas se o valor for grande também, apesar de e $X_2$ $X_3$ $X_2$ $X_3$ sendo negativamente correlacionada, a combinação é rara. "Contabilizando outros preditores", esse valor é extraordinariamente grande e destacará mais proeminentemente o gráfico de variáveis adicionado. $X_2$

$*$ Mais tecnicamente, eles seriam os resíduos da execução de duas outras regressões múltiplas: os resíduos da regressão contra todos os preditores que não vão no eixo vertical, enquanto os resíduos da regressão contra todos os outros preditores vão no eixo horizontal. Isso é realmente o que as lendas de " deram aos outros" e " deram aos outros" estão dizendo. Como o resíduo médio de ambas as regressões é zero, o ponto médio de ( dado a outros, $Y$ $X_2$ $X_2$ $Y$ $X_2$ $X_2$ $Y$ dado outros) será apenas (0, 0), o que explica por que a linha de regressão no gráfico de variáveis adicionadas sempre passa pela origem. Mas, muitas vezes, acho que mencionar os eixos são apenas resíduos de outras regressões confunde as pessoas (sem surpresa, talvez porque agora estamos falando de quatro regressões diferentes!), Por isso tentei não me deter no assunto. Compreenda-os como " deu a outros" e " deu a outros" e você deve ficar bem. $X_2$ $Y$

Silverfish
fonte

Não sabe ao certo como perguntar isso, mas há algo que realmente possa ser dito sobre as tendências vistas nas parcelas? Por exemplo, a qualidade do ajuste de cada tendência se relaciona com a independência de cada um dos preditores, ou algo assim?

precisa saber é o seguinte

Existe um método para converter as unidades de resíduos nos eixos horizontal e vertical em unidades das variáveis subjacentes?

Nicholas G

Essa é uma excelente resposta. Mas existe um erro de digitação no seu primeiro parágrafo (variáveis preditoras)? Eles deveriam ser X2 e X3?

detly 25/07

@Detly Obrigado, mudou!

Silverfish

Silverfish, você sabe a resposta para a pergunta @NicholasG? Existe alguma maneira de tornar os resíduos interpretáveis em termos de unidades da variável X?

Parseltongue

O que um Gráfico de Variável Adicionado (Gráfico de Regressão Parcial) explica em uma regressão múltipla?

Respostas: