Qual é a fórmula exata usada em R lm()
para o quadrado R ajustado? Como eu posso interpretar isso?
Fórmulas quadradas de r ajustadas
Parece haver várias fórmulas para calcular o quadrado R ajustado.
- Wherry fórmula de:
- Fórmula de McNemar:
- Fórmula do Senhor:
- Fórmula de Stein:
Descrições de livros didáticos
- De acordo com o livro de Field, Discovering Statistics Using R (2012, p. 273) R usa a equação de Wherry que "nos diz quanta variação em Y seria contabilizada se o modelo tivesse sido derivado da população da qual a amostra foi retirada". Ele não dá a fórmula para Wherry. Ele recomenda o uso da fórmula de Stein (à mão) para verificar a validade do modelo.
- Kleiber / Zeileis, Econometria Aplicada com R (2008, p. 59) afirmam que é "o quadrado R ajustado de Theil" e não diz exatamente como sua interpretação varia do múltiplo R ao quadrado.
- Dalgaard, Introductory Statistics with R (2008, p. 113) escreve que "se você multiplicar [R ajustado ao quadrado] por 100%, pode ser interpretado como '% de redução de variância'". Ele não diz a que fórmula isso corresponde.
Eu já havia pensado e lido amplamente que o R-quadrado penaliza por adicionar variáveis adicionais ao modelo. Agora, o uso dessas diferentes fórmulas parece exigir interpretações diferentes. Também examinei uma questão relacionada ao estouro de pilha ( qual é a diferença entre o quadrado múltiplo R e o quadrado R ajustado em uma regressão de mínimos quadrados com uma variável única? ) E o dicionário estatístico da escola Wharton na UPenn .
Questões
- Qual fórmula é usada para R-quadrado ajustado por R
lm()
? - Como eu posso interpretar isso?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
:, em que ans $ r.squared = R ^ 2; n = n, rdf = df residual, df.int = intercepta df (0 ou 1).Respostas:
1. Qual fórmula
lm
em R é usada para o quadrado r ajustado?Como já mencionado, a digitação
summary.lm
fornecerá o código que R usa para calcular o quadrado R ajustado. Extraindo a linha mais relevante que você obtém:que corresponde em notação matemática a:
df.int=1
rdf
n-p-1
2. Por que existem tantas fórmulas quadradas r ajustadas?
Referências
fonte
Em relação à sua primeira pergunta: se você não sabe como é calculado, veja o código! Se você digitar
summary.lm
seu console, obterá o código para esta função. Se você desnatado durante todo o código que você vai encontrar uma linha:ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
. Se você olhar algumas linhas acima desta linha, notará que:ans$r.squared
n
é o número de resíduos = número de observaçõesdf.int
é 0 ou 1 (dependendo se você tiver uma interceptação)rdf
é seu df residualfonte