Por que é possível obter estatística F significativa (p <0,001), mas testes t de regressão não significativos?

70

Em uma regressão linear múltipla, por que é possível ter uma estatística F altamente significativa (p <0,001), mas ter valores de p muito altos em todos os testes t do regressor?

No meu modelo, existem 10 regressores. Um deles tem um valor de p de 0,1 e o restante está acima de 0,9

Para lidar com esse problema, consulte a pergunta seguinte .

hypothesis-testing regression t-test multicollinearity Ηλίας
fonte

2

A constante também é insignificante? Quantos casos estão envolvidos? Quantas variáveis?

whuber

Como foi diagnosticada a multicolinearidade? Existem muitos métodos, alguns são mais informativos que outros. Quanto mais você nos contar, melhor a comunidade poderá responder.

Stask

3

Esta pergunta se tornou uma FAQ. Algumas das respostas aqui foram mescladas a partir de threads substancialmente semelhantes.

whuber

3

Veja também aqui: como uma regressão pode ser significativa, mas todos os preditores não são significativos , e para uma discussão do caso oposto, veja aqui: teste t significativo versus estatística F não significativa .

gung - Restabelece Monica

Eu tive o mesmo problema e as respostas acima não podem me ajudar. Agora eu sei a resposta (pelo menos para o meu problema): o valor F do modelo 2 pode ser significativo, porque você tem a mesma 'constante' (variável) que no modelo 1 (cujo valor F também é significativo). Você precisa olhar para a tabela chamada 'Resumo do modelo' na coluna 'Ass. F Altere 'para ver se a alteração em R ao quadrado é significativa (para o modelo 2). Se esse for significativo, os valores b também devem ser significativos. Você pode ignorar totalmente o valor F.

53

Como Rob menciona, isso ocorre quando você tem variáveis altamente correlacionadas. O exemplo padrão que eu uso é prever o peso do tamanho do sapato. Você pode prever o peso igualmente bem com o tamanho do sapato direito ou esquerdo. Mas juntos não dá certo.

Breve exemplo de simulação

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))

csgillespie
fonte

9

É interessante e importante observar que os dois modelos prevêem igualmente bem, neste caso. Altas correlações entre preditores não são necessariamente um problema para previsão. A multicolinearidade é apenas um problema quando 1) analistas tentam interpretar inadequadamente vários coeficientes de regressão; 2) o modelo não é calculável; e 3) as SEs são infladas e os coeficientes são instáveis.

Brett

Entendo que as duas variáveis estão altamente correlacionadas entre si, portanto, o resultado do teste t não é significativo, enquanto o resultado do teste F é significativo. Mas como isso acontece? Quero dizer, qual é a razão subjacente a esse fato?

yue86231

105

É necessária muito pouca correlação entre as variáveis independentes para causar isso.

Para ver o porquê, tente o seguinte:

Desenhe 50 conjuntos de dez vetores com coeficientes iid padrão normal. $(x_1, x_2, \ldots, x_{10})$
Calcule para . Isso torna o individualmente padrão normal, mas com algumas correlações entre eles. $y_i = (x_i + x_{i+1})/\sqrt{2}$ $i = 1, 2, \ldots, 9$ $y_i$
Calcule . Observe que . $w = x_1 + x_2 + \cdots + x_{10}$ $w = \sqrt{2}(y_1 + y_3 + y_5 + y_7 + y_9)$
Adicione algum erro independente distribuído normalmente a . Com um pouco de experimentação, descobri que com funciona muito bem. Assim, é a soma do mais algum erro. Ele também é a soma de alguns dos o mais o mesmo erro. $w$ $z = w + \varepsilon$ $\varepsilon \sim N(0, 6)$ $z$ $x_i$ $y_i$

Vamos considerar como variáveis independentes e como variável dependente. $y_i$ $z$

Aqui está uma matriz de dispersão de um desses conjuntos de dados, com na parte superior e esquerda e em ordem. $z$ $y_i$

Matriz de dispersão

As correlações esperadas entre e são quando e caso contrário. As correlações realizadas variam de 62%. Eles aparecem como gráficos de dispersão mais próximos da diagonal. $y_i$ $y_j$ $1/2$ $|i-j|=1$ $0$

Veja a regressão de relação ao : $z$ $y_i$

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

A estatística F é altamente significativa, mas nenhuma das variáveis independentes é, mesmo sem nenhum ajuste para todas as nove.

Para ver o que está acontecendo, considere a regressão de contra apenas o números ímpares : $z$ $y_i$

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

Algumas dessas variáveis são altamente significativas, mesmo com um ajuste de Bonferroni. (Há muito mais a ser dito olhando para esses resultados, mas isso nos afastaria do ponto principal.)

A intuição por trás disso é que depende principalmente de um subconjunto das variáveis (mas não necessariamente de um subconjunto exclusivo). O complemento desse subconjunto ( ) não adiciona essencialmente nenhuma informação sobre devido a correlações - por - com o próprio subconjunto. $z$ $y_2, y_4, y_6, y_8$ $z$

Esse tipo de situação surgirá na análise de séries temporais . Podemos considerar os subscritos como horários. A construção do induziu uma correlação serial de curto alcance entre eles, assim como muitas séries temporais. Devido a isso, perdemos pouca informação subamostrando a série em intervalos regulares. $y_i$

Uma conclusão que podemos tirar disso é que, quando muitas variáveis são incluídas em um modelo, elas podem mascarar as verdadeiramente significativas. O primeiro sinal disso é a estatística F geral altamente significativa, acompanhada de testes t não tão significativos para os coeficientes individuais. (Mesmo quando algumas das variáveis são individualmente significativas, isso não significa automaticamente que as outras não são. Esse é um dos defeitos básicos das estratégias de regressão por etapas: elas são vítimas desse problema de mascaramento.) Aliás, os fatores de inflação da variaçãona primeira regressão, de 2,55 a 6,09, com média de 4,79: apenas no limite do diagnóstico de multicolinearidade, de acordo com as regras mais conservadoras; bem abaixo do limite de acordo com outras regras (onde 10 é um ponto de corte superior).

whuber
fonte

5

Ótima resposta. Um mais 1 de mim. Eu gostaria de dar mais.

Michael Chernick

41

Multicolinearidade

Como você observa, e como foi discutido nesta pergunta anterior , altos níveis de multicolinearidade são uma das principais causas de um estatisticamente significativo, mas preditores estaticamente não significativos. $R^2$
Obviamente, a multicolinearidade não é apenas um limiar absoluto. Os erros padrão nos coeficientes de regressão aumentam à medida que as intercorrelações com o preditor focal aumentam.

Vários preditores quase significativos

Mesmo se você não tivesse multicolinearidade, ainda poderá obter preditores não significativos e um modelo global significativo se dois ou mais preditores individuais estiverem próximos de significativos e, portanto, coletivamente, a previsão geral ultrapassará o limiar da significância estatística. Por exemplo, usando um alfa de 0,05, se você tivesse dois preditores com valores de p de 0,06 e 0,07, não ficaria surpreso se o modelo geral tivesse um p <0,05.

Jeromy Anglim
fonte

Boa resposta concisa. Para adicionar isso, eu sugeriria perturbar os dados (ou remover um preditor) e ver se há uma mudança perceptível nos coeficientes da regressão. Por exemplo, procure alterações de sinal.

Mustafa S Eisa

38

Isso acontece quando os preditores são altamente correlacionados. Imagine uma situação em que existem apenas dois preditores com correlação muito alta. Individualmente, ambos também se correlacionam estreitamente com a variável de resposta. Consequentemente, o teste F tem um valor p baixo (está dizendo que os preditores juntos são altamente significativos na explicação da variação na variável resposta). Mas o teste t para cada preditor tem um alto valor de p porque, depois de permitir o efeito do outro preditor, não há muito o que explicar.

Rob Hyndman
fonte

Oi Rob, desculpe por incomodá-lo. Eu li a sua resposta (porque estou enfrentando a situação da pergunta agora), mas não consigo entender o que você quer dizer com "depois de permitir o efeito do outro preditor, não há muito o que explicar". Posso pedir que você me explique isso? Muito obrigado.

yue86231

11

@ yue86231 Isso significa que, embora tenhamos um valor p para cada preditor, não podemos interpretar cada valor p isoladamente. Cada teste t preditor só pode mostrar a significância de uma variável após contabilizar a variação explicada por todas as outras variáveis. Os coeficientes de regressão linear e o erro padrão são produzidos ao mesmo tempo, por assim dizer, e os dois preditores reduzem a significância um do outro.

Robert Kubrick

11

Considere o seguinte modelo: , , , , e são todos independentes . $X_1 \sim N(0,1)$ $X_2 = a X_1 + \delta$ $Y = bX_1 + cX_2 + \epsilon$ $\delta$ $\epsilon$ $X_1$ $N(0,1)$

Então

C o v (X_{2}, Y) = E [(a X_{1} + δ) (b X_{1} + c X_{2} + ϵ)] = E [(a X_{1} + δ) ({b + a c} X_{1} + c δ + ϵ)] = a (b + a c) + c

${\rm Cov}(X_2,Y) = {\rm E}[(aX_1+\delta)(bX_1+cX_2+\epsilon)]={\rm E}[(aX_1+\delta)(\{b+ac\}X_1+c\delta+\epsilon)]=a(b+ac)+c$

Podemos definir esta a zero com dizer , e . No entanto, todas as relações obviamente estarão lá e serão facilmente detectáveis com a análise de regressão. $a=1$ $b=2$ $c=-1$

Você disse que entende a questão de as variáveis serem correlacionadas e a regressão ser insignificante melhor; provavelmente significa que você foi condicionado pela menção frequente de multicolinearidade, mas seria necessário aumentar sua compreensão da geometria dos mínimos quadrados.

StasK
fonte

10

Uma palavra-chave a ser pesquisada seria "colinearidade" ou "multicolinearidade". Isso pode ser detectado usando diagnósticos como fatores de inflação de variação (VIFs) ou métodos descritos no livro "Diagnósticos de regressão: identificando dados influentes e fontes de colinearidade" de Belsley, Kuh e Welsch. Os VIFs são muito mais fáceis de entender, mas não conseguem lidar com a colinearidade envolvendo a interceptação (ou seja, preditores quase constantes por si mesmos ou em uma combinação linear) - por outro lado, os diagnósticos de BKW são muito menos intuitivos, mas podem lidar com a colinearidade envolvendo a interceptação.

S. Kolassa - Restabelecer Monica
fonte

9

A resposta que você recebe depende da pergunta que você faz. Além dos pontos já apresentados, os valores individuais dos parâmetros F e os valores gerais do modelo F respondem a perguntas diferentes, para que eles obtenham respostas diferentes. Eu já vi isso acontecer mesmo quando os valores individuais de F não são tão significativos, especialmente se o modelo tiver mais de 2 ou 3 IVs. Não conheço nenhuma maneira de combinar os valores-p individuais e obter algo significativo, embora possa haver uma maneira.

Peter Flom - Restabelece Monica
fonte

2

(-1) Sim - o pôster original está notando que ele / ela também aconteceu. A questão era o que exatamente são algumas coisas que podem causar isso além da colinearidade e não vejo como isso é uma resposta.

Macro

4

@ Macac O voto negativo parece um pouco duro, porque há uma observação útil e válida nesta resposta: os testes de significância geral e de variável variável individual "respondem a perguntas diferentes". É certo que é qualitativo, mas não mais do que a primeira resposta com muitos votos positivos; e a essa resposta acrescenta alguma intuição válida, sem dúvida tornando-a uma melhoria em relação a essa resposta.

whuber

11

Eu nunca disse que não havia informações ou intuição válidas fornecidas por esta resposta. Se eu tivesse uma boa resposta para essa pergunta, já teria respondido - é uma pergunta difícil - só estava dizendo que essa resposta parece não responder à pergunta em nenhum sentido da palavra.

Macro

9

Outra coisa a ter em mente é que os testes dos coeficientes individuais assumem que todos os outros preditores estão no modelo. Em outras palavras, cada preditor não é significativo desde que todos os outros preditores estejam no modelo. Deve haver alguma interação ou interdependência entre dois ou mais de seus preditores.

Como alguém mais perguntou acima - como você diagnosticou a falta de multicolinearidade?

Dave Kincaid
fonte

4

Uma maneira de entender isso é a geometria dos mínimos quadrados, como sugere o @StasK.

Outra é perceber que isso significa que X está relacionado a Y ao controlar as outras variáveis, mas não sozinho. Você diz que X se refere à variação única em Y. Isso está certo. A variação única em Y, no entanto, é diferente da variação total. Então, que variação as outras variáveis estão removendo?

Ajudaria se você pudesse nos contar suas variáveis.

Peter Flom - Restabelece Monica
fonte

Por que é possível obter estatística F significativa (p <0,001), mas testes t de regressão não significativos?

Respostas:

Multicolinearidade

Vários preditores quase significativos