Qual fator de inflação de variação devo usar: ou ?

30

Estou tentando interpretar fatores de inflação de variância usando a viffunção no pacote de R car. A função imprime um generalizado e também . De acordo com o arquivo de ajuda , esse último valorVIFGVIF1/(2df)

Para ajustar a dimensão do elipsóide de confiança, a função também imprime GVIF ^ [1 / (2 * df)] em que df é o grau de liberdade associado ao termo.

Eu não entendo o significado dessa explicação no arquivo de ajuda, portanto, não tenho certeza se devo usar ou . Para o meu modelo, esses dois valores são muito diferentes (máximo é ~ ; máximo é ~ ).GVIFGVIF1/(2df)GVIF60GVIF1/(2df)3

Alguém poderia me explicar qual deles devo usar e o que significa ajustar a dimensão do elipsóide de confiança?

Jay
fonte

Respostas:

25

Georges Monette e eu introduzimos o GVIF no artigo "Diagnóstico generalizado de colinearidade", JASA 87: 178-183, 1992 ( link ). Como explicamos, o GVIF representa a razão quadrada de hipervolumes do elipsóide de confiança conjunta para um subconjunto de coeficientes para o elipsóide "utópico" que seria obtido se os regressores nesse subconjunto não estivessem correlacionados com os regressores no subconjunto complementar. No caso de um único coeficiente, isso é especializado no VIF usual. Para tornar GVIFs comparáveis ​​entre dimensões, sugerimos o uso de GVIF ^ (1 / (2 * Df)), em que Df é o número de coeficientes no subconjunto. Com efeito, isso reduz o GVIF a uma medida linear e, para o VIF, em que Df = 1, é proporcional à inflação devido à colinearidade no intervalo de confiança para o coeficiente.

John Fox
fonte
3
Bem vindo ao nosso site! Ficaríamos honrados se você registrasse sua conta e visitasse de vez em quando. Uma pequena nota de limpeza: você não precisa assinar suas postagens, seu identicon, com um link para sua página de usuário, é automaticamente adicionado a todas as respostas que você der.
gung - Restabelece Monica
24

Encontrei exatamente a mesma pergunta e tentei trabalhar. Veja minha resposta detalhada abaixo.

Primeiro de tudo, eu encontrei 4 opções produzindo valores VIF semelhantes em R:

corvifcomando do pacote AED,

vifcomando do pacote veicular,

vifcomando do pacote rms,

vifcomando do pacote DAAG.

O uso desses comandos em um conjunto de preditores que não incluem fatores / variáveis ​​categóricas ou termos polinomiais é um passo direto. Todos os três comandos produzem a mesma saída numérica, embora o corvifcomando do pacote AED rotule os resultados como GVIF.

No entanto, normalmente, o GVIF só entra em jogo para fatores e variáveis ​​polinomiais. Variáveis ​​que requerem mais de 1 coeficiente e, portanto, mais de 1 grau de liberdade são normalmente avaliadas usando o GVIF. Para termos de um coeficiente, VIF é igual a GVIF.

Portanto, você pode aplicar regras práticas padrão sobre se a colinearidade pode ser um problema, como um limite de 3, 5 ou 10. No entanto, alguns cuidados podem (devem) ser aplicados (consulte: http://www.nkd-group.com/ghdash/mba555/PDF/VIF%20article.pdf ).

No caso de termos com múltiplos coeficientes, como, por exemplo, preditores categóricos, os 4 pacotes produzem resultados diferentes. Os vifcomandos dos pacotes rms e DAAG produzem valores VIF, enquanto os outros dois produzem valores GVIF.

Vamos dar uma olhada nos valores VIF dos pacotes rms e DAAG primeiro:

TNAP     ICE     RegB    RegC    RegD    RegE

1.994    2.195   3.074   3.435   2.907   2.680

TNAP e ICE são preditores contínuos e Reg é uma variável categórica apresentada pelos manequins RegB para RegE. Nesse caso, RegA é a linha de base. Todos os valores de VIF são bastante moderados e, geralmente, nada para se preocupar. O problema com esse resultado é que ele é afetado pela linha de base da variável categórica. Para ter certeza de não ter um valor VIF acima de um nível aceitável, seria necessário refazer essa análise para cada nível da variável categórica que é a linha de base. Neste caso, cinco vezes.

Aplicando o corvifcomando do pacote AED ou o vifcomando do pacote veicular, os valores GVIF são produzidos:

     |  GVIF     | Df | GVIF^(1/2Df) |  

TNAP | 1.993964  | 1  | 1.412078     |
ICE  | 2.195035  | 1  | 1.481565     | 
Reg  | 55.511089 | 5  | 1.494301     |

O GVIF é calculado para conjuntos de regressores relacionados, como a para um conjunto de regressores fictícios. Para as duas variáveis ​​contínuas TNAP e ICE, é o mesmo que os valores VIF anteriores. Para a variável categórica Reg, obtemos agora um valor GVIF muito alto, embora os valores VIF para os níveis únicos da variável categórica fossem todos moderados (como mostrado acima).

GVEuF(1/(2×Df))GVEuF(1/(2×Df))O valor da variável categórica é uma medida semelhante para a redução na precisão da estimativa dos coeficientes devido à colinearidade (mesmo que não esteja pronta para citar, consulte também http://socserv2.socsci.mcmaster.ca/jfox/papers/linear- models-problems.pdf ).

GVEuF(1/(2×Df))GVEuF(1/(2×Df))

GVEuF(1/(2×Df))GVEuF(1/(2×Df))GVEuF2(1/(2×Df))<2

Jan Philipp S
fonte
Bem-vindo ao site, @JanPhilippS. Isso parece tanto uma pergunta nova quanto uma resposta à pergunta do OP. Por favor, use apenas o campo "Sua resposta" para fornecer respostas. Se você tiver sua própria pergunta, clique [ASK QUESTION]no topo e faça a pergunta lá, podemos ajudá-lo adequadamente. Como você é novo aqui, convém fazer um tour , que contém informações para novos usuários.
gung - Restabelece Monica
2
Bem, não é realmente uma pergunta nova. Em vez disso, uma resposta detalhada.
Jan Philipp S
1
@JanPhilippS, obrigado pelos links das fontes para mais leituras. Penso que o seu post parecia uma resposta de qualidade que permitiu refletir sobre o estado das coisas.
timothy.s.lau
6

A Fox & Monette (citação original de GVIF, GVIF ^ 1 / 2df) sugere que levar o GVIF à potência de 1 / 2df torna o valor do GVIF comparável em diferentes números de parâmetros. "É análogo à raiz quadrada do fator de variação-inflação usual" (de An R e S-Plus Companion a Applied Regression, de John Fox). Então, sim, ajustá-lo e aplicar a "regra de ouro" usual do VIF parece razoável.

acmw
fonte