Por que o quadrado R ajustado é menor que o quadrado R se o quadrado ajustado prediz melhor o modelo?

15

Tanto quanto eu entendo, explica o quão bem o modelo prevê a observação. Ajustado R 2 é a que tem em conta as observações mais (ou graus de liberdade). Então, ajustado R 2 prevê o modelo melhor? Então por isso é menos do que R 2 ? Parece que muitas vezes deveria ser mais.R2R2R2R2

user59756
fonte

Respostas:

30

mostra a relação linear entre as variáveis independentes e a variável dependente. É definido como 1 - S S ER2 que é a soma dos erros do quadrado dividida pela soma total dos quadrados. SSTO=SSE+SSR,que são o erro total e a soma total dos quadrados de regressão. À medida que variáveis ​​independentes são adicionadas,SSRcontinuará a subir (e desde queSSTOé fixo)SSEdiminuirá eR21SSESSTOSSTO=SSE+SSRSSRSSTOSSER2 continuará a subir, independentemente de quão importante as variáveis que você adicionou são.

A Ajustado está tentando conta o encolhimento estatística. Modelos com toneladas de preditores tendem a ter um desempenho melhor na amostra do que quando testados fora da amostra. O R 2 ajustado "penaliza" você por adicionar variáveis ​​preditoras extras que não melhoram o modelo existente. Pode ser útil na seleção de modelos. Ajustado R 2 será igual a R 2 para uma variável de previsão. Como você adicionar variáveis, será menor do que R 2 .R2R2R2R2R2

Eric Peterson
fonte
Não está claro como o quadrado R ajustado atinge as propriedades apontadas. Ou seja, qual é a fórmula e como ela causa as propriedades?
Alexey Voytenko
Adj R ^ 2 = 1 - ((n-1) / (n - k-1)) (1 - R ^ 2)
mountainclimber
Onde k = número de variáveis independentes, n = # observações
mountainclimber
tentando explicar o encolhimento estatístico - talvez por sobreajuste?
Richard Hardy
-1

R ^ 2 explica a proporção da variação em sua variável dependente (Y) explicada por suas variáveis ​​independentes (X) para um modelo de regressão linear.

Enquanto R ^ 2 ajustado diz a proporção da variação em sua variável dependente (Y) explicada por mais de 1 variáveis ​​independentes (X) para um modelo de regressão linear.

astha gupta
fonte
11
A distinção que você está fazendo entre "variáveis ​​independentes" e "mais de 1 variáveis ​​independentes" não é clara. Além disso, citando Andy a partir de baixo, "Você realmente não adiciona novas informações ao que foi fornecido antes".
Ameba diz Reinstate Monica
-2

O R-quadrado aumenta mesmo quando você adiciona variáveis ​​que não estão relacionadas à variável dependente, mas o R-quadrado ajustado cuida disso, pois diminui sempre que você adiciona variáveis ​​que não estão relacionadas à variável dependente, portanto, depois de tomar cuidado, é provável diminuir.

CHRISTOPHER MBOTWA
fonte
3
Dado que esta pergunta já tem uma resposta aceita, isso deve ser mais um comentário. Você realmente não adiciona novas informações às fornecidas anteriormente.
Andy