Por que meu R-quadrado é tão baixo quando minhas estatísticas t são tão grandes?

17

Fiz uma regressão com 4 variáveis, e todas são estatisticamente significativas, com valores de T e (digo porque parece irrelevante incluir os decimais), que são muito altos e claramente significativos. Mas então o é apenas 0,2224. Estou interpretando mal os valores t aqui para significar algo que eles não são? Minha primeira reação ao ver os valores t foi que o seria bastante alto, mas talvez esse seja um alto ? $\approx 7,9,26$ $31$ $\approx$ $R^2$ $R^2$ $R^2$

regression hypothesis-testing econometrics Kyle
fonte

1

Aposto que seu

n

$n$ é moderadamente grande, certo?

Glen_b -Reinstate Monica

@Glen_b sim, em torno de 6000.

Kyle

10

Então grandes

t

$t$ -Estatísticas sendo associado com pequena

R^{2}

$R^2$ é inteiramente normal. Como os erros padrão diminuem como

1 / \sqrt{n}

$1/\sqrt{n}$ ,

t

$t$ -ratios aumentará como

\sqrt{n}

$\sqrt{n}$ , enquanto

R^{2}

$R^2$ tenderão a permanecer constante com o aumento

n

$n$ . Por que você se importa o que o

R^{2}

$R^2$ é? Por que você se importa com o que são as relações t?

Glen_b -Reinstate Monica

45

Os $t$ -Valores e $R^2$ são utilizados para julgar coisas muito diferentes. Os $t$ -Valores são usados para avaliar a accurary da sua estimativa do $\beta_i$ 's, mas $R^2$ mede a quantidade de variação na sua variável de resposta explicada pela sua co-variáveis. Suponha que você esteja estimando um modelo de regressão com $n$ observações,

Y_{i} = β_{0} + β_{1} X_{1 i} + . . . + β_{k} X_{k i} + ϵ_{i}

$Y_i = \beta_0 + \beta_1X_{1i} + ...+ \beta_kX_{ki}+\epsilon_i$

onde $\epsilon_i\overset{i.i.d}{\sim}N(0,\sigma^2)$ , $i=1,...,n$ .

Valores $t$ grandes (em valor absoluto) levam você a rejeitar a hipótese nula de que $\beta_i=0$ . Isso significa que você pode ter certeza de ter estimado corretamente o sinal do coeficiente. Também se $|t|$ > 4 e você tem $n>5$ , então 0 não está em um intervalo de confiança de 99% para o coeficiente. O valor $t$ para um coeficiente $\beta_i$ é a diferença entre a estimativa $\hat{\beta_i}$ e 0 normalizada pelo erro padrão $se\{\hat{\beta_i}\}$ .

t = \frac{\hat{β_{i}}}{s e {\hat{β_{i}}}}

$t=\frac{\hat{\beta_i}}{se\{\hat{\beta_i}\}}$

que é simplesmente a estimativa dividida por uma medida de sua variabilidade. Se você tem um conjunto de dados grande o suficiente, você sempre terá estatisticamente significativa (grande) $t$ -Valores. Isso não significa necessariamente que suas covariáveis explicam grande parte da variação na variável de resposta.

Como mencionado @Stat, $R^2$ mede a quantidade de variação na sua variável de resposta explicado por as variáveis dependentes. Para saber mais sobre $R^2$ , ir para a wikipedia . No seu caso, parece que você tem um grande conjunto de dados suficientes para estimar com precisão o $\beta_i$ 's, mas seus co-variáveis fazer um mau trabalho de explicar e \ ou prever os valores de resposta.

Caburke
fonte

1

(+1) Está claro desde o início que esta é uma explicação informativa e bem considerada.

whuber

Boa resposta. Acho que os termos "significado prático" e "significado estatístico" costumam ser úteis para pensar sobre esse assunto.

Aaron - Restabelece Monica

3

Há também uma transformação simples entre as duas estatísticas:

R^{2} = \frac{t^{2}}{t^{2} + d f}

$R^2=\frac{t^2}{t^2+df}$

Jeff

6

Para dizer a mesma coisa que caburke, mas de maneira mais simples, você está muito confiante de que a resposta média causada por suas variáveis não é zero. Mas há muitas outras coisas que você não tem na regressão que causam a resposta.

generic_user
fonte

0

Pode ser que, embora seus preditores tendam linearmente em termos de sua variável de resposta (a inclinação é significativamente diferente de zero), o que torna os valores t significativos, mas o R ao quadrado é baixo porque os erros são grandes, o que significa que a variabilidade em seus dados são grandes e, portanto, seu modelo de regressão não é adequado (as previsões não são tão precisas)?

Apenas meus 2 centavos.

Talvez esta publicação possa ajudar: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- valores

mel
fonte

0

Várias respostas dadas estão próximas, mas ainda estão erradas.

"Os valores t são usados para julgar a precisão de sua estimativa dos βi" é o que mais me preocupa.

O valor T é meramente uma indicação da probabilidade de ocorrência aleatória. Grande significa improvável. Pequeno significa muito provável. Positivo e Negativo não importam para a interpretação da probabilidade.

"R2 mede a quantidade de variação em sua variável de resposta explicada por suas covariáveis" está correta.

(Eu teria comentado, mas ainda não estou autorizado por esta plataforma.)

Kevin
fonte

2

Você parece escrever sobre valores-t como se fossem valores-p.

whuber

-4

A única maneira de lidar com um pequeno R ao quadrado, verifique o seguinte:

O tamanho da sua amostra é grande o suficiente? Se sim, execute o passo 2. mas, se não, aumente o tamanho da amostra.
Quantas covariáveis você usou para a estimativa do seu modelo? Se mais de 1 como no seu caso, lide com o problema da multicolinearidade das covariáveis ou, simplesmente, execute a regressão novamente e desta vez sem a constante que é conhecida como beta zero.
No entanto, se o problema persistir, faça uma regressão passo a passo e selecione o modelo com um R alto ao quadrado. Mas o que eu não posso recomendar, porque gera viés nas covariáveis

Katleho
fonte

Por que meu R-quadrado é tão baixo quando minhas estatísticas t são tão grandes?

Respostas: