Por que meu R-quadrado é tão baixo quando minhas estatísticas t são tão grandes?

17

Fiz uma regressão com 4 variáveis, e todas são estatisticamente significativas, com valores de T e (digo porque parece irrelevante incluir os decimais), que são muito altos e claramente significativos. Mas então o é apenas 0,2224. Estou interpretando mal os valores t aqui para significar algo que eles não são? Minha primeira reação ao ver os valores t foi que o seria bastante alto, mas talvez esse seja um alto ?7,9,2631R2R2R2

Kyle
fonte
1
Aposto que seu n é moderadamente grande, certo?
Glen_b -Reinstate Monica
@Glen_b sim, em torno de 6000.
Kyle
10
Então grandes t -Estatísticas sendo associado com pequena R2 é inteiramente normal. Como os erros padrão diminuem como 1/n ,t-ratios aumentará comon , enquantoR2tenderão a permanecer constante com o aumenton. Por que você se importa o que oR2é? Por que você se importa com o que são as relações t?
Glen_b -Reinstate Monica

Respostas:

45

Os t -Valores e R2 são utilizados para julgar coisas muito diferentes. Os t -Valores são usados para avaliar a accurary da sua estimativa do βi 's, mas R2 mede a quantidade de variação na sua variável de resposta explicada pela sua co-variáveis. Suponha que você esteja estimando um modelo de regressão com n observações,

Yi=β0+β1X1i+...+βkXki+ϵi

onde ϵii.i.dN(0,σ2) , i=1,...,n .

Valores t grandes (em valor absoluto) levam você a rejeitar a hipótese nula de que βi=0 . Isso significa que você pode ter certeza de ter estimado corretamente o sinal do coeficiente. Também se |t|> 4 e você tem n>5 , então 0 não está em um intervalo de confiança de 99% para o coeficiente. O valor t para um coeficiente βi é a diferença entre a estimativa βi^ e 0 normalizada pelo erro padrão se{βi^} .

t=βi^se{βi^}

que é simplesmente a estimativa dividida por uma medida de sua variabilidade. Se você tem um conjunto de dados grande o suficiente, você sempre terá estatisticamente significativa (grande) t -Valores. Isso não significa necessariamente que suas covariáveis ​​explicam grande parte da variação na variável de resposta.

Como mencionado @Stat, R2 mede a quantidade de variação na sua variável de resposta explicado por as variáveis dependentes. Para saber mais sobre R2 , ir para a wikipedia . No seu caso, parece que você tem um grande conjunto de dados suficientes para estimar com precisão o βi 's, mas seus co-variáveis fazer um mau trabalho de explicar e \ ou prever os valores de resposta.

Caburke
fonte
1
(+1) Está claro desde o início que esta é uma explicação informativa e bem considerada.
whuber
Boa resposta. Acho que os termos "significado prático" e "significado estatístico" costumam ser úteis para pensar sobre esse assunto.
Aaron - Restabelece Monica
3
Há também uma transformação simples entre as duas estatísticas: R2=t2t2+df
Jeff
6

Para dizer a mesma coisa que caburke, mas de maneira mais simples, você está muito confiante de que a resposta média causada por suas variáveis ​​não é zero. Mas há muitas outras coisas que você não tem na regressão que causam a resposta.

generic_user
fonte
0

Pode ser que, embora seus preditores tendam linearmente em termos de sua variável de resposta (a inclinação é significativamente diferente de zero), o que torna os valores t significativos, mas o R ao quadrado é baixo porque os erros são grandes, o que significa que a variabilidade em seus dados são grandes e, portanto, seu modelo de regressão não é adequado (as previsões não são tão precisas)?

Apenas meus 2 centavos.

Talvez esta publicação possa ajudar: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- valores

mel
fonte
0

Várias respostas dadas estão próximas, mas ainda estão erradas.

"Os valores t são usados ​​para julgar a precisão de sua estimativa dos βi" é o que mais me preocupa.

O valor T é meramente uma indicação da probabilidade de ocorrência aleatória. Grande significa improvável. Pequeno significa muito provável. Positivo e Negativo não importam para a interpretação da probabilidade.

"R2 mede a quantidade de variação em sua variável de resposta explicada por suas covariáveis" está correta.

(Eu teria comentado, mas ainda não estou autorizado por esta plataforma.)

Kevin
fonte
2
Você parece escrever sobre valores-t como se fossem valores-p.
whuber
-4

A única maneira de lidar com um pequeno R ao quadrado, verifique o seguinte:

  1. O tamanho da sua amostra é grande o suficiente? Se sim, execute o passo 2. mas, se não, aumente o tamanho da amostra.
  2. Quantas covariáveis ​​você usou para a estimativa do seu modelo? Se mais de 1 como no seu caso, lide com o problema da multicolinearidade das covariáveis ​​ou, simplesmente, execute a regressão novamente e desta vez sem a constante que é conhecida como beta zero.

  3. No entanto, se o problema persistir, faça uma regressão passo a passo e selecione o modelo com um R alto ao quadrado. Mas o que eu não posso recomendar, porque gera viés nas covariáveis

Katleho
fonte