O que significa que uma regressão linear seja estatisticamente significativa, mas tem um quadrado ao quadrado muito baixo?

14

Entendo que isso significa que o modelo é ruim em prever pontos de dados individuais, mas estabeleceu uma tendência firme (por exemplo, y sobe quando x sobe).

PaperRockBazooka
fonte
9
Pode sugerir uma muito grande tamanho da amostra
Henry
2
R-quadrado tem alguma bagagem. stats.stackexchange.com/questions/13314/…
EngrStudent - Restabelece Monica

Respostas:

27

Isso significa que você pode explicar uma pequena parte da variação nos dados. Por exemplo, você pode estabelecer que um diploma universitário afeta os salários, mas, ao mesmo tempo, é apenas um pequeno fator. Existem muitos outros fatores que afetam seu salário, e a contribuição do diploma é muito pequena, mas detectável.

Em termos práticos, isso poderia significar que, em média, o diploma universitário aumenta o salário em US $ 500 por ano, enquanto o desvio padrão dos salários das pessoas é de US $ 10.000. Portanto, muitas pessoas com formação superior têm salários mais baixos do que os sem instrução e o valor do seu modelo para previsão é baixo.

Aksakal
fonte
11

Significa "erro irredutível é alto", ou seja, a melhor coisa que podemos fazer (com o modelo linear) é limitada. Por exemplo, o seguinte conjunto de dados:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

Observe que o truque neste conjunto de dados é que, dado um valor , existem muitos valores diferentes , que não podemos fazer uma boa previsão para satisfazer todos eles. Ao mesmo tempo, existem correlações lineares "fortes" entre e . Se ajustarmos um modelo linear, obteremos coeficientes significativos, mas R baixo ao quadrado.xyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

insira a descrição da imagem aqui

Haitao Du
fonte
4

R2

Luca Citi
fonte
3

O que significa que uma regressão linear seja estatisticamente significativa, mas tem um quadrado ao quadrado muito baixo?

Isso significa que existe um relacionamento linear entre a variável independente e dependente, mas que não vale a pena falar sobre esse relacionamento.

A significância do relacionamento, no entanto, depende muito do que você está examinando, mas, geralmente, você pode entender que o significado estatístico não deve ser confundido com relevância.

Com um tamanho de amostra suficientemente grande, até os relacionamentos mais triviais podem ser estatisticamente significativos.

faustus
fonte
1
Regressão realmente linear significa linear nos parâmetros. As variáveis ​​dependentes brutas podem ser transformadas e você ainda tem uma regressão linear. Estou um pouco intrigado com o que você acha que é significância estatística. Para mim, isso significa que as estimativas de parâmetros são grandes.
Michael R. Chernick
^ significância refere-se à probabilidade de que os resultados tenham sido puramente por acaso e que não haja relação entre os preditores e a variável dependente. se você tiver um tamanho de amostra pequeno e os resultados forem significativos, sim, as estimativas dos parâmetros seriam grandes. no entanto, com uma amostra ridiculamente grande, você pode obter resultados significativos mesmo com uma estimativa de parâmetro muito pequena. testá-lo aqui: danielsoper.com/statcalc/calculator.aspx
faustus
O que você diz soa como uma descrição geral do que é a inferência. Mas a significância estatística é um termo específico que tem a ver com a excedência de um valor crítico onde os valores críticos dependem de um nível de significância particular escolhido pelo analista (por exemplo, 0,05. 0,01, etc.). O tamanho da amostra é outro fator. Na regressão você está testando várias hipóteses (significância dos coeficientes de regressão individuais, bem como o teste que não há nenhuma relação Ele também pode ser complicada por fazer os procedimentos passo a passo que escolher entre vários modelos possíveis..
Michael R. Chernick
1
A estatística é parte da ciência e parte da arte, mas é baseada em princípios matemáticos.
Michael R. Chernick
2
@MichaelChernik Você pode elaborar um pouco? Concordo com faustus (de fato, dei uma resposta semelhante) e não entendo o seu ponto de vista. Na regressão linear, a significância ((significância dos coeficientes de regressão individual ou toda a regressão) é testada contra a hipótese de não haver relação (coeficiente exatamente 0). Com dados suficientes, você pode dizer que os coeficientes são diferentes de zero, mas terrivelmente pequeno. (continua)
Luca Citi
2

Outra maneira de expressar isso é que isso significa que você pode prever com confiança uma mudança no nível da população, mas não no nível individual. ou seja, existe uma grande variação nos dados individuais, mas quando uma amostra grande o suficiente é usada, um efeito subjacente pode ser visto em geral. É uma das razões pelas quais alguns conselhos de saúde do governo são inúteis para o indivíduo. Em algum momento, os governos sentem a necessidade de agir, porque podem ver que mais de algumas atividades levam a mais mortes em geral na população. Eles produzem conselhos ou uma política que 'salva' essas vidas. No entanto, devido à alta variação nas respostas individuais, é muito improvável que um indivíduo veja pessoalmente algum benefício (ou, pior ainda, devido a condições genéticas específicas, sua própria saúde teria melhorado se obedecesse ao conselho oposto, mas isso está oculto na agregação populacional). Se o indivíduo obtém benefício (por exemplo, prazer) da atividade "prejudicial", seguir os conselhos pode significar que ele renuncia a esse prazer definido ao longo da vida, mas, na verdade, não muda pessoalmente se sofreria ou não da doença.

healthcynic
fonte
Muito bom exemplo!
precisa saber é o seguinte
R2