Qual é a relação entre o quadrado R e o valor p em uma regressão?

tl; dr - para regressão OLS, um R-quadrado mais alto também implica um valor-P mais alto? Especificamente para uma única variável explicativa (Y = a + bX + e), mas também estaria interessado em saber para n múltiplas variáveis explicativas (Y = a + b1X + ... bnX + e).

Contexto - estou executando a regressão OLS em um intervalo de variáveis e estou tentando desenvolver a melhor forma funcional explicativa produzindo uma tabela contendo os valores do quadrado R entre as transformações linear, logarítmica, etc., de cada variável explicativa (independente) e a variável de resposta (dependente). Parece um pouco com:

Nome da variável --forma linear-- --ln (variável) --exp (variável) - ... etc

Variável 1 ------- R ao quadrado ---- R ao quadrado ---- R ao quadrado -
... etc ...

Eu estou querendo saber se R-quadrado é apropriado ou se valores de P seria melhor. Presumivelmente, existe algum relacionamento, pois um relacionamento mais significativo implicaria maior poder explicativo, mas não tenho certeza se isso é verdade de maneira rigorosa.

regression modeling p-value r-squared econometricstatsquestion
fonte

Também é interessante: R ^ 2 é útil ou perigoso? .

whuber

Respostas:

A resposta é não, não existe tal relação regular entre $R^2$ e o valor-p de regressão geral, porque $R^2$ depende tanto da variação das variáveis independentes como faz na variação dos resíduos (a que é inversamente proporcional) e você pode alterar a variação das variáveis independentes por valores arbitrários.

Como exemplo, considerar qualquer conjunto de dados multivariados $((x_{i1}, x_{i2}, \ldots, x_{ip}, y_i))$ com $i$ indexar os casos e supor que o conjunto de valores da primeira variável independente, $\{x_{i1}\}$ , possui um máximo único $x^*$ separado do segundo valor mais alto por uma quantidade positiva $\epsilon$ . Aplique uma transformação não linear da primeira variável que envie todos os valores menores que $x^* - \epsilon/2$ no intervalo $[0,1]$ e envia $x^*$ para algum valor grande $M \gg 1$ . Para qualquer $M$ isso pode ser feito por uma transformação Box-Cox adequada (em escala) $x \to a((x-x_0)^\lambda - 1)/(\lambda-1))$ , por exemplo, por isso não estamos falando sobre qualquer coisa estranha ou "patológica". Então, como $M$ cresce arbitrariamente grande, $R^2$ se aproxima de $1$ , tanto quanto quiser, independentemente de quão ruim o ajuste é, pois a variância dos resíduos será limitado enquanto a variância da primeira variável independente é assintoticamente proporcional a $M^2$ .

Em vez disso, você deve usar testes de bondade de ajuste (entre outras técnicas) para selecionar um modelo apropriado em sua exploração: você deve se preocupar com a linearidade do ajuste e a homocedasticidade dos resíduos. E não tome nenhum valor p da regressão resultante na confiança: eles acabarão quase sem sentido depois de você ter passado por este exercício, porque a interpretação deles pressupõe que a escolha de expressar as variáveis independentes não dependia dos valores da variável. variável dependente, o que não é o caso aqui.

whuber
fonte

Essa resposta não lida diretamente com a questão central; nada mais é do que algumas informações adicionais que são muito longas para um comentário.

Eu apontar isso porque econometricstatsquestion, sem dúvida, encontrar esta informação, ou algo parecido em algum momento (afirmando que e são relacionados) e se perguntam se a informação dada em outras respostas aqui está errado - não é errado - mas eu acho que vale a pena esclarecer o que está acontecendo. $F$ $R^2$

Existe um relacionamento sob um conjunto particular de circunstâncias; se você segurar o número de observações eo número de preditores fixo para um determinado modelo, é de fato monotônica em , já que $F$ $R^2$

F = \frac{R^{2} / (k - 1)}{(1 - R^{2}) / (N - k)}

$F = \frac{R^2/(k-1)}{(1-R^2)/(N-k)}$

(Se você dividir o numerador e o denominador por e puxar as constantes em para fora, poderá ver que se você mantiver e constantes.) $R^2$ $k$ $1/F \propto 1/R^2 - 1$ $N$ $k$

Uma vez que para df fixa e o valor p estão monotonicamente relacionados, e a -valor são também monotonicamente relacionados. $F$ $R^2$ $p$

Mas mude quase tudo sobre o modelo, e esse relacionamento não se mantém nas circunstâncias alteradas.

Por exemplo, a adição de um ponto de marcas maior e a remoção de um torna mais pequenas mas fazendo também pode aumentar ou diminuir , de modo que ele se parece com e não necessariamente mover-se em conjunto, se você adiciona ou exclui dados. Adicionando uma variável diminui , mas aumenta (e vice-versa), de modo que de novo, não está necessariamente relacionado com $(N-k)/(k-1)$ $R^2$ $F$ $R^2$ $(N-k)/(k-1)$ $R^2$ $R^2$ quando você faz isso. $F$

Claramente, uma vez que você comparar e -Valores através modelos com características diferentes, esta relação não necessariamente segurar, como whuber provou no caso de transformações não lineares. $R^2$ $p$

Glen_b -Reinstate Monica
fonte

Não discordo de você, mas parece que você está respondendo a uma pergunta diferente da minha. Demorou algum leitura, mas cheguei à conclusão de que a questão pergunta sobre que tipo de relacionamento, se houver, tem entre

quando (caeteris paribus) variáveis independentes são não linearmente transformado. Somente quando essas variáveis são mantidas inalteradas - ou, no máximo, linearmente transformadas entre si - é que podemos dizer qualquer coisa sobre esse relacionamento. Esse é parte do sentido em que acho que seu qualificador "para um determinado modelo" deve ser entendido.

p

$p$

R^{2}

$R^2$

whuber

Estou respondendo a uma pergunta diferente; e acredito que sua interpretação do significado está correta. Eu estava mais preocupado que um problema como o que eu levantei levasse à confusão se não fosse explicado. Todos os seus pontos valem, no meu entendimento. (Agora, estou preocupado, de fato, que talvez minha resposta não sirva para esclarecer, como eu esperava, mas apenas confunda o problema. Você acha que há uma modificação adequada que o ajudaria? Devo excluí-lo?)

Glen_b -Reinstala Monica

Eu odiaria vê-lo excluído, Glen. Se você pretende fazer alterações, considere apontar explicitamente sobre quais aspectos deste problema você está escrevendo ( por exemplo , o que exatamente você quer dizer com "modelo dado" e o que você tem em mente sobre modelos com "características diferentes"). Esse era o espírito (colaborativo, não crítico) em que ofereci meu comentário.

whuber

Não me senti criticado por você - você parecia esclarecer e nada mais -, mas a necessidade disso destaca uma inadequação na resposta pela qual me preocupei antes de comentar. A imprecisão das 'características diferentes' é porque é uma coisa bastante geral - varia muito de qualquer coisa (até dou exemplos de algo tão simples como remover um ponto ou adicionar uma variável para ilustrar o quão pouco é necessário mudar) pode criar um relacionamento monotônico. evaporar. Vou pensar no que mais posso dizer.

Glen_b -Reinstala Monica

+1 para a edição: esses são comentários valiosos e é especialmente útil ver a fórmula de

aparecer.

F

$F$

whuber

"para regressão OLS, um quadrado R mais alto também implica um valor P mais alto? Especificamente para uma única variável explicativa (Y = a + bX + e)"

Especificamente para uma única variável explicativa, dado o tamanho da amostra , a resposta é sim. Como Glen_b explicou, existe uma relação directa entre e a estatística de teste (quer seja um ou ). Por exemplo, como explicado neste outra questão ( alta quadrado e alta -valor de regressão linear simples ) para a regressão linear simples com uma covariável (e uma constante), a relação entre e representa: $R^2$ $F$ $t$ $R^2$ $p$ $t$ $R^2$

$|t| = \sqrt{\frac{R^2}{(1- R^2)}(n -2)}$

Portanto, neste caso, uma vez que você corrigir , maior a , quanto maior o estatística e menor o valor-p. $n$ $R^2$ $t$

"mas também estaria interessado em saber para n múltiplas variáveis explicativas (Y = a + b1X + ... bnX + e)."

A resposta é a mesma, mas, em vez de examinar apenas uma variável, agora analisamos todas as variáveis juntas - daí a estatística , como Glen_b mostrou. E aqui você precisa corrigir e o número de parâmetros. Ou, melhor dizendo, fixe os graus de liberdade. $F$ $n$

Contexto - estou realizando regressão OLS em uma variedade de variáveis e estou tentando desenvolver a melhor forma funcional explicativa (...)

$R^2$

Carlos Cinelli
fonte