O que r, r ao quadrado e o desvio padrão residual nos dizem sobre uma relação linear?

13

Pouco histórico
Estou trabalhando na interpretação da análise de regressão, mas fico realmente confuso sobre o significado de r, r ao quadrado e desvio padrão residual. Conheço as definições:

Caracterizações

r mede a força e a direção de uma relação linear entre duas variáveis ​​em um gráfico de dispersão

O quadrado R é uma medida estatística de quão próximos os dados estão da linha de regressão ajustada.

O desvio padrão residual é um termo estatístico usado para descrever o desvio padrão de pontos formados em torno de uma função linear e é uma estimativa da precisão da variável dependente que está sendo medida. ( Não sei quais são as unidades, qualquer informação sobre as unidades aqui seria útil )

(fontes: aqui )

Pergunta
Embora eu "compreenda" as caracterizações, compreendo como esses termos se esforçam para tirar uma conclusão sobre o conjunto de dados. Vou inserir um pequeno exemplo aqui, talvez isso pode servir como um guia para responder a minha pergunta ( se sentir livre para usar um exemplo de seu próprio!)

Exemplo
Esta não é uma questão howework, no entanto Busquei no meu livro para obter um exemplo simples (o conjunto de dados atual que estou analisando é muito complexo e grande para mostrar aqui)

Vinte parcelas, cada uma com 10 x 4 metros, foram escolhidas aleatoriamente em um grande campo de milho. Para cada parcela, foram observadas a densidade da planta (número de plantas na parcela) e o peso médio da espiga (gm de grão por espiga). Os resultados estão apresentados na tabela a seguir:
(fonte: Estatísticas para as ciências da vida )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

Primeiro vou fazer uma dispersão de visualizar os dados: Então eu posso calcular r, R 2 e o desvio padrão residual. primeiro o teste de correlação:
insira a descrição da imagem aqui

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

e segundo, um resumo da linha de regressão:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

Portanto, com base neste teste: r = -0.9417954, R ao quadrado: 0.887e erro padrão residual: o 8.619 que esses valores nos dizem sobre o conjunto de dados? (veja a pergunta )

KingBoomie
fonte
3
Vale a pena notar que o que você chama de "definições" são apenas caracterizações casuais e , como tal, podem ser enganosas, dependendo de como elas são interpretadas e aplicadas. As definições reais são quantitativas e precisas.
whuber
Obrigado por apontar que eu, as fontes que usei chamaram essas definições, no entanto, sem "caracterizações" de contexto provavelmente seriam melhores, vou mudar isso!
KingBoomie
Peças: o quadrado R é geralmente explicado como a proporção de variação explicada pelos preditores, portanto, próximo a 1 é bom. As unidades do desvio padrão residual devem ser as unidades dos seus resíduos, que são as unidades da sua variável de resposta.
alistaire
Obrigado! @alistaire realmente isso faz sentido hahah porque nós comparamos o valor y de pontos originais com os valores y dos pontos previstos
KingBoomie
Você deve plotar os resíduos contra o previsto, conforme sugerido por David em sua resposta.
HelloWorld

Respostas:

5

Essas estatísticas podem informar se há um componente linear no relacionamento, mas não muito sobre se o relacionamento é estritamente linear. Um relacionamento com um pequeno componente quadrático pode ter um r ^ 2 de 0,99. Um gráfico de resíduos em função do previsto pode ser revelador. No experimento de Galileu, aqui https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html, a correlação é muito alta, mas a relação é claramente não-linear.

David Lane
fonte
5

Aqui está uma segunda tentativa de resposta depois de receber feedback sobre problemas com a minha primeira resposta.

r|r||r|

R2r2R2

rR2rrR2rR2

O erro padrão residual é o desvio padrão para uma distribuição normal, centralizado na linha de regressão prevista, representando a distribuição dos valores realmente observados. Em outras palavras, se medirmos apenas a densidade da planta para uma nova parcela, podemos prever o peso da espiga usando os coeficientes do modelo ajustado, essa é a média dessa distribuição. O RSE é o desvio padrão dessa distribuição e, portanto, uma medida de quanto esperamos que os pesos da espiga realmente observados se desviem dos valores previstos pelo modelo. Um RSE de ~ 8 nesse caso deve ser comparado ao desvio padrão da amostra do peso da espiga, mas quanto menor o RSE for comparado ao SD da amostra, mais preditivo ou adequado será o modelo.

Johan Falkenjack
fonte
@whuber Ainda não há outras respostas para essa pergunta, então decidi tentar outra vez. Em vez de desfazer a exclusão da resposta antiga, com toda a sua bagagem, decidi escrever uma nova (exceto o parágrafo do RSE que copiei). Se você tiver tempo, ficaria muito grato por qualquer comentário sobre esta segunda tentativa. Minha abordagem usual para avaliação de modelo é a validação cruzada e os conjuntos de validação, pois o objetivo geralmente é a previsão, mas eu realmente gostaria de entender essas métricas, pois elas são bastante comuns.
Johan Falkenjack
2
|r|rρ