Em uma regressão linear múltipla, por que é possível ter uma estatística F altamente significativa (p <0,001), mas ter valores de p muito altos em todos os testes t do regressor?
No meu modelo, existem 10 regressores. Um deles tem um valor de p de 0,1 e o restante está acima de 0,9
Para lidar com esse problema, consulte a pergunta seguinte .
Respostas:
Como Rob menciona, isso ocorre quando você tem variáveis altamente correlacionadas. O exemplo padrão que eu uso é prever o peso do tamanho do sapato. Você pode prever o peso igualmente bem com o tamanho do sapato direito ou esquerdo. Mas juntos não dá certo.
Breve exemplo de simulação
fonte
É necessária muito pouca correlação entre as variáveis independentes para causar isso.
Para ver o porquê, tente o seguinte:
Desenhe 50 conjuntos de dez vetores com coeficientes iid padrão normal.(x1,x2,…,x10)
Calcule para . Isso torna o individualmente padrão normal, mas com algumas correlações entre eles.yi=(xi+xi+1)/2–√ i=1,2,…,9 yi
Calcule . Observe que .w=x1+x2+⋯+x10 w=2–√(y1+y3+y5+y7+y9)
Adicione algum erro independente distribuído normalmente a . Com um pouco de experimentação, descobri que com funciona muito bem. Assim, é a soma do mais algum erro. Ele também é a soma de alguns dos o mais o mesmo erro.w z=w+ε ε∼N(0,6) z xi yi
Vamos considerar como variáveis independentes e como variável dependente.yi z
Aqui está uma matriz de dispersão de um desses conjuntos de dados, com na parte superior e esquerda e em ordem.z yi
As correlações esperadas entre e são quando e caso contrário. As correlações realizadas variam de 62%. Eles aparecem como gráficos de dispersão mais próximos da diagonal.yi yj 1/2 |i−j|=1 0
Veja a regressão de relação ao :z yi
A estatística F é altamente significativa, mas nenhuma das variáveis independentes é, mesmo sem nenhum ajuste para todas as nove.
Para ver o que está acontecendo, considere a regressão de contra apenas o números ímpares :z yi
Algumas dessas variáveis são altamente significativas, mesmo com um ajuste de Bonferroni. (Há muito mais a ser dito olhando para esses resultados, mas isso nos afastaria do ponto principal.)
A intuição por trás disso é que depende principalmente de um subconjunto das variáveis (mas não necessariamente de um subconjunto exclusivo). O complemento desse subconjunto ( ) não adiciona essencialmente nenhuma informação sobre devido a correlações - por - com o próprio subconjunto.z y2,y4,y6,y8 z
Esse tipo de situação surgirá na análise de séries temporais . Podemos considerar os subscritos como horários. A construção do induziu uma correlação serial de curto alcance entre eles, assim como muitas séries temporais. Devido a isso, perdemos pouca informação subamostrando a série em intervalos regulares.yi
Uma conclusão que podemos tirar disso é que, quando muitas variáveis são incluídas em um modelo, elas podem mascarar as verdadeiramente significativas. O primeiro sinal disso é a estatística F geral altamente significativa, acompanhada de testes t não tão significativos para os coeficientes individuais. (Mesmo quando algumas das variáveis são individualmente significativas, isso não significa automaticamente que as outras não são. Esse é um dos defeitos básicos das estratégias de regressão por etapas: elas são vítimas desse problema de mascaramento.) Aliás, os fatores de inflação da variaçãona primeira regressão, de 2,55 a 6,09, com média de 4,79: apenas no limite do diagnóstico de multicolinearidade, de acordo com as regras mais conservadoras; bem abaixo do limite de acordo com outras regras (onde 10 é um ponto de corte superior).
fonte
Multicolinearidade
Vários preditores quase significativos
fonte
Isso acontece quando os preditores são altamente correlacionados. Imagine uma situação em que existem apenas dois preditores com correlação muito alta. Individualmente, ambos também se correlacionam estreitamente com a variável de resposta. Consequentemente, o teste F tem um valor p baixo (está dizendo que os preditores juntos são altamente significativos na explicação da variação na variável resposta). Mas o teste t para cada preditor tem um alto valor de p porque, depois de permitir o efeito do outro preditor, não há muito o que explicar.
fonte
Considere o seguinte modelo: , , , , e são todos independentes .X1∼N(0,1) X2=aX1+δ Y=bX1+cX2+ϵ δ ϵ X1 N(0,1)
Então
Podemos definir esta a zero com dizer , e . No entanto, todas as relações obviamente estarão lá e serão facilmente detectáveis com a análise de regressão.b = 2 c = - 1a=1 b=2 c=−1
Você disse que entende a questão de as variáveis serem correlacionadas e a regressão ser insignificante melhor; provavelmente significa que você foi condicionado pela menção frequente de multicolinearidade, mas seria necessário aumentar sua compreensão da geometria dos mínimos quadrados.
fonte
Uma palavra-chave a ser pesquisada seria "colinearidade" ou "multicolinearidade". Isso pode ser detectado usando diagnósticos como fatores de inflação de variação (VIFs) ou métodos descritos no livro "Diagnósticos de regressão: identificando dados influentes e fontes de colinearidade" de Belsley, Kuh e Welsch. Os VIFs são muito mais fáceis de entender, mas não conseguem lidar com a colinearidade envolvendo a interceptação (ou seja, preditores quase constantes por si mesmos ou em uma combinação linear) - por outro lado, os diagnósticos de BKW são muito menos intuitivos, mas podem lidar com a colinearidade envolvendo a interceptação.
fonte
A resposta que você recebe depende da pergunta que você faz. Além dos pontos já apresentados, os valores individuais dos parâmetros F e os valores gerais do modelo F respondem a perguntas diferentes, para que eles obtenham respostas diferentes. Eu já vi isso acontecer mesmo quando os valores individuais de F não são tão significativos, especialmente se o modelo tiver mais de 2 ou 3 IVs. Não conheço nenhuma maneira de combinar os valores-p individuais e obter algo significativo, embora possa haver uma maneira.
fonte
Outra coisa a ter em mente é que os testes dos coeficientes individuais assumem que todos os outros preditores estão no modelo. Em outras palavras, cada preditor não é significativo desde que todos os outros preditores estejam no modelo. Deve haver alguma interação ou interdependência entre dois ou mais de seus preditores.
Como alguém mais perguntou acima - como você diagnosticou a falta de multicolinearidade?
fonte
Uma maneira de entender isso é a geometria dos mínimos quadrados, como sugere o @StasK.
Outra é perceber que isso significa que X está relacionado a Y ao controlar as outras variáveis, mas não sozinho. Você diz que X se refere à variação única em Y. Isso está certo. A variação única em Y, no entanto, é diferente da variação total. Então, que variação as outras variáveis estão removendo?
Ajudaria se você pudesse nos contar suas variáveis.
fonte