Regressão linear O que a estatística F, R ao quadrado e o erro padrão residual nos dizem?

14

Estou realmente confuso sobre a diferença de significado em relação ao contexto de regressão linear dos seguintes termos:

  • Estatística F
  • R ao quadrado
  • Erro padrão residual

Eu encontrei esse webstie que me deu uma grande visão dos diferentes termos envolvidos na regressão linear, no entanto, os termos mencionados acima parecem bastante (tanto quanto eu entendo). Vou citar o que li e o que me confundiu:

Erro padrão residual é a medida da qualidade de um ajuste de regressão linear ....... O erro padrão residual é a quantidade média que a resposta (dist) se desviará da linha de regressão verdadeira.

1. Portanto, essa é realmente a distância média dos valores observados da linha lm?

A estatística do quadrado R fornece uma medida de quão bem o modelo está ajustando os dados reais.

2. Agora estou ficando confuso porque se o RSE nos diz a que distância nossos pontos observados se desviam da linha de regressão, um RSE baixo está realmente nos dizendo "seu modelo está se ajustando bem com base nos pontos de dados observados" -> assim, quão bom é o nosso modelos se encaixa, então qual é a diferença entre R ao quadrado e RSE?

A estatística F é um bom indicador de se existe uma relação entre nosso preditor e as variáveis ​​de resposta.

3. É verdade que podemos ter um valor F indicando um forte relacionamento NÃO LINEAR, de modo que nosso RSE seja alto e nosso R ao quadrado seja baixo

KingBoomie
fonte
O valor Q 3 não indica relação não linear. É uma razão que indica se existe uma relação substantiva (constante) entre as duas variáveis ​​- dependente e independente.
Subhash C. Davar
Não nos diz a natureza do relacionamento - não linear ou linear.
Subhash C. Davar

Respostas:

12

A melhor maneira de entender esses termos é fazer um cálculo de regressão manualmente. Escrevi duas respostas estreitamente relacionadas ( aqui e aqui ), mas elas podem não ajudá-lo totalmente a entender seu caso particular. Mas leia-os mesmo assim. Talvez eles também o ajudem a conceituar melhor esses termos.

Em uma regressão (ou ANOVA), construímos um modelo com base em um conjunto de dados de amostra que nos permite prever resultados de uma população de interesse. Para fazê-lo, os três componentes que se seguem são calculadas em uma regressão linear simples a partir do qual pode ser calculada dos outros componentes, por exemplo, os quadrados médios, o valor F, o R2 (também a ajustada R2 ), e o erro padrão residual ( RSE ):

  1. soma total de quadrados ( SStotal )
  2. somas residuais de quadrados ( SSresidual )
  3. somas de quadrados do modelo ( SSmodel )

Cada um deles está avaliando quão bem o modelo descreve os dados e é a soma das distâncias ao quadrado dos pontos de dados até o modelo ajustado (ilustrado como linhas vermelhas no gráfico abaixo).

O SStotal avaliar quão bem os ataques médios dos dados. Por que dizer? Como a média é o modelo mais simples em que podemos ajustar e, portanto, serve como o modelo ao qual a linha de regressão dos mínimos quadrados é comparada. Esse gráfico usando o carsconjunto de dados ilustra que:

insira a descrição da imagem aqui

SSresidual

insira a descrição da imagem aqui

SSmodelSStotalSSresidual

enter image description here

Para responder às suas perguntas, primeiro vamos calcular os termos que você deseja entender começando com modelo e saída como referência:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

A soma dos quadrados é a distância ao quadrado dos pontos de dados individuais do modelo:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

Os quadrados médios são as somas de quadrados calculadas pela média dos graus de liberdade:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Minhas respostas para suas perguntas:

Q1:

  1. Portanto, essa é realmente a distância média dos valores observados da linha lm?

RSEMSresidual

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

SSresidualMSresidual SSresidualRSErepresenta a distância média dos dados observados do modelo. Intuitivamente, isso também faz todo sentido, porque se a distância for menor, o ajuste do modelo também será melhor.

Q2:

  1. Agora, estou ficando confuso porque, se o RSE nos diz a que distância nossos pontos observados se desviam da linha de regressão, um RSE baixo está realmente nos dizendo "seu modelo está se ajustando bem com base nos pontos de dados observados" -> assim, quão bem nossos modelos se ajustam , qual é a diferença entre R ao quadrado e RSE?

R2SSmodelSStotal

# R squared
r.sq <- ss.model/ss.total
r.sq

R2SStotalSSmodel

RSER2RSE

R2

Q3:

  1. É verdade que podemos ter um valor F indicando um forte relacionamento NÃO LINEAR, de modo que nosso RSE seja alto e nosso R ao quadrado seja baixo

FMSmodelMSresidual

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

F

Sua terceira pergunta é um pouco difícil de entender, mas concordo com a citação que você forneceu.

Stefan
fonte
3

(2) Você está entendendo corretamente, está apenas tendo dificuldades com o conceito.

o R2O valor representa o quão bem o modelo é responsável por todos os dados. Só pode assumir valores entre 0 e 1. É a porcentagem do desvio dos pontos no conjunto de dados que o modelo pode explicar.

O RSE é mais um descritor do que o desvio do modelo representa os dados originais. Então oR2diz: "o modelo faz isso bem na explicação dos dados apresentados". O RSE diz: "quando mapeados, esperávamos que os dados estivessem aqui, mas aqui é onde realmente estavam". Eles são muito semelhantes, mas são usados ​​para validar de maneiras diferentes.

Chris
fonte
0

Apenas para complementar o que Chris respondeu acima:

A estatística F é a divisão do quadrado médio do modelo e o quadrado médio residual. Software como Stata, depois de ajustar um modelo de regressão, também fornece o valor p associado à estatística F. Isso permite testar a hipótese nula de que os coeficientes do seu modelo são zero. Você pode pensar nisso como a "significância estatística do modelo como um todo".

YSC
fonte