tl; dr - para regressão OLS, um R-quadrado mais alto também implica um valor-P mais alto? Especificamente para uma única variável explicativa (Y = a + bX + e), mas também estaria interessado em saber para n múltiplas variáveis explicativas (Y = a + b1X + ... bnX + e).
Contexto - estou executando a regressão OLS em um intervalo de variáveis e estou tentando desenvolver a melhor forma funcional explicativa produzindo uma tabela contendo os valores do quadrado R entre as transformações linear, logarítmica, etc., de cada variável explicativa (independente) e a variável de resposta (dependente). Parece um pouco com:
Nome da variável --forma linear-- --ln (variável) --exp (variável) - ... etc
Variável 1 ------- R ao quadrado ---- R ao quadrado ---- R ao quadrado -
... etc ...
Eu estou querendo saber se R-quadrado é apropriado ou se valores de P seria melhor. Presumivelmente, existe algum relacionamento, pois um relacionamento mais significativo implicaria maior poder explicativo, mas não tenho certeza se isso é verdade de maneira rigorosa.
fonte
Respostas:
A resposta é não, não existe tal relação regular entreR2 e o valor-p de regressão geral, porque R2 depende tanto da variação das variáveis independentes como faz na variação dos resíduos (a que é inversamente proporcional) e você pode alterar a variação das variáveis independentes por valores arbitrários.
Como exemplo, considerar qualquer conjunto de dados multivariados((xi1,xi2,…,xip,yi)) com i indexar os casos e supor que o conjunto de valores da primeira variável independente, {xi1} , possui um máximo único x∗ separado do segundo valor mais alto por uma quantidade positiva ϵ . Aplique uma transformação não linear da primeira variável que envie todos os valores menores quex∗−ϵ/2 no intervalo[0,1] e enviax∗ para algum valor grandeM≫1 . Para qualquerM isso pode ser feito por uma transformação Box-Cox adequada (em escala)x→a((x−x0)λ−1)/(λ−1)) , por exemplo, por isso não estamos falando sobre qualquer coisa estranha ou "patológica". Então, comoM cresce arbitrariamente grande, R2 se aproxima de 1 , tanto quanto quiser, independentemente de quão ruim o ajuste é, pois a variância dos resíduos será limitado enquanto a variância da primeira variável independente é assintoticamente proporcional a M2 .
Em vez disso, você deve usar testes de bondade de ajuste (entre outras técnicas) para selecionar um modelo apropriado em sua exploração: você deve se preocupar com a linearidade do ajuste e a homocedasticidade dos resíduos. E não tome nenhum valor p da regressão resultante na confiança: eles acabarão quase sem sentido depois de você ter passado por este exercício, porque a interpretação deles pressupõe que a escolha de expressar as variáveis independentes não dependia dos valores da variável. variável dependente, o que não é o caso aqui.
fonte
Essa resposta não lida diretamente com a questão central; nada mais é do que algumas informações adicionais que são muito longas para um comentário.
Eu apontar isso porque econometricstatsquestion, sem dúvida, encontrar esta informação, ou algo parecido em algum momento (afirmando que e R 2 são relacionados) e se perguntam se a informação dada em outras respostas aqui está errado - não é errado - mas eu acho que vale a pena esclarecer o que está acontecendo.F R2
Existe um relacionamento sob um conjunto particular de circunstâncias; se você segurar o número de observações eo número de preditores fixo para um determinado modelo, é de fato monotônica em R 2 , já queF R2
(Se você dividir o numerador e o denominador por e puxar as constantes em k para fora, poderá ver que 1 / F ∝ 1 / R 2 - 1 se você mantiver N e k constantes.)R2 k 1/F∝1/R2−1 N k
Uma vez que para df fixa e o valor p estão monotonicamente relacionados, R 2 e a p -valor são também monotonicamente relacionados.F R2 p
Mas mude quase tudo sobre o modelo, e esse relacionamento não se mantém nas circunstâncias alteradas.
Por exemplo, a adição de um ponto de marcas maior e a remoção de um torna mais pequenas mas fazendo também pode aumentar ou diminuir R 2 , de modo que ele se parece com F e R 2 não necessariamente mover-se em conjunto, se você adiciona ou exclui dados. Adicionando uma variável diminui ( N - k ) / ( k - 1 ) , mas aumenta R 2 (e vice-versa), de modo que de novo, R 2 não está necessariamente relacionado com(N−k)/(k−1) R2 F R2 (N−k)/(k−1) R2 R2 quando você faz isso.F
Claramente, uma vez que você comparar e p -Valores através modelos com características diferentes, esta relação não necessariamente segurar, como whuber provou no caso de transformações não lineares.R2 p
fonte
Especificamente para uma única variável explicativa, dado o tamanho da amostra , a resposta é sim. Como Glen_b explicou, existe uma relação directa entre e a estatística de teste (quer seja um F ou T ). Por exemplo, como explicado neste outra questão ( alta R 2 quadrado e alta p -valor de regressão linear simples ) para a regressão linear simples com uma covariável (e uma constante), a relação entre t e R 2 representa:R2 F t R2 p t R2
Portanto, neste caso, uma vez que você corrigir , maior a R 2 , quanto maior o t estatística e menor o valor-p.n R2 t
A resposta é a mesma, mas, em vez de examinar apenas uma variável, agora analisamos todas as variáveis juntas - daí a estatística , como Glen_b mostrou. E aqui você precisa corrigir n e o número de parâmetros. Ou, melhor dizendo, fixe os graus de liberdade.F n
fonte