Estou realmente confuso sobre a diferença de significado em relação ao contexto de regressão linear dos seguintes termos:
- Estatística F
- R ao quadrado
- Erro padrão residual
Eu encontrei esse webstie que me deu uma grande visão dos diferentes termos envolvidos na regressão linear, no entanto, os termos mencionados acima parecem bastante (tanto quanto eu entendo). Vou citar o que li e o que me confundiu:
Erro padrão residual é a medida da qualidade de um ajuste de regressão linear ....... O erro padrão residual é a quantidade média que a resposta (dist) se desviará da linha de regressão verdadeira.
1. Portanto, essa é realmente a distância média dos valores observados da linha lm?
A estatística do quadrado R fornece uma medida de quão bem o modelo está ajustando os dados reais.
2. Agora estou ficando confuso porque se o RSE nos diz a que distância nossos pontos observados se desviam da linha de regressão, um RSE baixo está realmente nos dizendo "seu modelo está se ajustando bem com base nos pontos de dados observados" -> assim, quão bom é o nosso modelos se encaixa, então qual é a diferença entre R ao quadrado e RSE?
A estatística F é um bom indicador de se existe uma relação entre nosso preditor e as variáveis de resposta.
3. É verdade que podemos ter um valor F indicando um forte relacionamento NÃO LINEAR, de modo que nosso RSE seja alto e nosso R ao quadrado seja baixo
fonte
Respostas:
A melhor maneira de entender esses termos é fazer um cálculo de regressão manualmente. Escrevi duas respostas estreitamente relacionadas ( aqui e aqui ), mas elas podem não ajudá-lo totalmente a entender seu caso particular. Mas leia-os mesmo assim. Talvez eles também o ajudem a conceituar melhor esses termos.
Em uma regressão (ou ANOVA), construímos um modelo com base em um conjunto de dados de amostra que nos permite prever resultados de uma população de interesse. Para fazê-lo, os três componentes que se seguem são calculadas em uma regressão linear simples a partir do qual pode ser calculada dos outros componentes, por exemplo, os quadrados médios, o valor F, oR2 (também a ajustada R2 ), e o erro padrão residual ( RSE ):
Cada um deles está avaliando quão bem o modelo descreve os dados e é a soma das distâncias ao quadrado dos pontos de dados até o modelo ajustado (ilustrado como linhas vermelhas no gráfico abaixo).
OSStotal avaliar quão bem os ataques médios dos dados. Por que dizer? Como a média é o modelo mais simples em que podemos ajustar e, portanto, serve como o modelo ao qual a linha de regressão dos mínimos quadrados é comparada. Esse gráfico usando o
cars
conjunto de dados ilustra que:Para responder às suas perguntas, primeiro vamos calcular os termos que você deseja entender começando com modelo e saída como referência:
A soma dos quadrados é a distância ao quadrado dos pontos de dados individuais do modelo:
Os quadrados médios são as somas de quadrados calculadas pela média dos graus de liberdade:
Minhas respostas para suas perguntas:
Q1:
Q2:
Q3:
Sua terceira pergunta é um pouco difícil de entender, mas concordo com a citação que você forneceu.
fonte
(2) Você está entendendo corretamente, está apenas tendo dificuldades com o conceito.
oR2 O valor representa o quão bem o modelo é responsável por todos os dados. Só pode assumir valores entre 0 e 1. É a porcentagem do desvio dos pontos no conjunto de dados que o modelo pode explicar.
O RSE é mais um descritor do que o desvio do modelo representa os dados originais. Então oR2 diz: "o modelo faz isso bem na explicação dos dados apresentados". O RSE diz: "quando mapeados, esperávamos que os dados estivessem aqui, mas aqui é onde realmente estavam". Eles são muito semelhantes, mas são usados para validar de maneiras diferentes.
fonte
Apenas para complementar o que Chris respondeu acima:
A estatística F é a divisão do quadrado médio do modelo e o quadrado médio residual. Software como Stata, depois de ajustar um modelo de regressão, também fornece o valor p associado à estatística F. Isso permite testar a hipótese nula de que os coeficientes do seu modelo são zero. Você pode pensar nisso como a "significância estatística do modelo como um todo".
fonte