VIF, índice de condição e valores próprios

15

Atualmente, estou avaliando a multicolinearidade em meus conjuntos de dados.

Quais valores limite de VIF e índice de condição abaixo / acima sugerem um problema?

VIF: Ouvi dizer que VIF é um problema.10

Após remover duas variáveis ​​problemáticas, o VIF é para cada variável. As variáveis ​​precisam de mais tratamento ou esse VIF parece bom?3.96

Índice de Condição: Ouvi dizer que um Índice de Condição (CI) de 30 ou mais é um problema. Meu IC mais alto é 16,66. Isso é um problema?

Outros problemas:

  • Existem outros prós / contras que precisam ser considerados?
  • Há outras coisas que eu preciso ter em mente?
ayush biyani
fonte
1
Por favor, esclareça a pergunta. Em particular, esses foram alguns comentários de antes: Por @chl - "você deve escrever perguntas claras (elas são interessantes por si só), com um problema definitivo, e reservar comentários para informações adicionais relevantes para sua pergunta original, não para seguir: acima". Por @shane - "Em relação a esta pergunta atual: ela também pode ser melhorada porque são feitas muitas perguntas diferentes, sem uma discussão comum clara. Você está interessado em multicolinearidade em geral? Ou você está interessado em VIF? Seria melhor divulgá-las para maior clareza ".

Respostas:

5

O problema da multicolinearidade é bem estudado na maioria dos livros econométricos. Além disso, há um bom artigo na wikipedia que realmente resume a maioria das questões-chave.

Na prática, começa-se a ter em mente o problema da multicolinearidade, se causar alguns sinais visuais de instabilidade de parâmetros (a maioria deles está implícita na invertibilidade não (fraca) da matriz ):XTX

  1. grandes mudanças nas estimativas de parâmetros durante a execução de regressões ou estimativas contínuas em subamostras menores dos dados
  2. Na média das estimativas dos parâmetros, o último pode ser insignificante (pelos testes ), embora o teste de regressão junk mostre alta significância conjunta dos resultadostF
  3. A estatística VIF (valor médio das regressões auxiliares) depende apenas de seus requisitos para o nível de tolerância, a maioria das sugestões práticas colocam uma tolerância aceitável menor que 0,2 ou 0,1, o que significa que as médias correspondentes das regressões auxiliares devem ser maiores que 0,9 ou 0,8 a detectar o problema. Portanto, o VIF deve ser maior que os valores 10 e 5 da regra geral. Em amostras pequenas (menos de 50 pontos), é preferível 5; em maiores, você pode ir para valores maiores. R2
  4. O índice de condição é uma alternativa ao VIF no seu caso, nem o VIF nem o IC mostram que o problema foi deixado; portanto, você pode ficar satisfeito estatisticamente com este resultado, mas ...

provavelmente não teoricamente, uma vez que pode acontecer (e geralmente é o caso) que você precisa de todas as variáveis ​​presentes no modelo. A exclusão de variáveis ​​relevantes (problema de variável omitida) fará estimativas de parâmetros tendenciosas e inconsistentes de qualquer maneira. Por outro lado, você pode ser forçado a incluir todas as variáveis ​​de foco simplesmente porque sua análise é baseada nela. Na abordagem de mineração de dados, você é mais técnico na busca do melhor ajuste.

Portanto, lembre-se das alternativas (que eu mesmo usaria):

  1. obter mais pontos de dados (lembre-se de que os requisitos de VIF são menores para um conjunto de dados maior e as variáveis ​​explicativas, se elas estão variando lentamente, podem mudar para alguns pontos cruciais no tempo ou na seção transversal)
  2. procure fatores latentes através de componentes principais (estes são combinações ortogonais, portanto não multicolineares pela construção, envolvem mais todas as variáveis ​​explicativas)
  3. regressão de crista (introduz pequeno viés nas estimativas de parâmetros, mas as torna altamente estáveis)

Alguns outros truques estão no artigo wiki mencionado acima.

Dmitrij Celov
fonte
3

Acredito que Belsely disse que IC acima de 10 é indicativo de um possível problema moderado, enquanto mais de 30 é mais grave.

Além disso, você deve observar a variação compartilhada por conjuntos de variáveis ​​nos altos índices de condição. Há um debate (ou foi, da última vez que li esta literatura) sobre se a colinearidade que envolvia uma variável e a interceptação era problemática ou não, e se a centralização da variável ofensiva se livrou do problema ou simplesmente a mudou para outro lugar.

Peter Flom - Restabelece Monica
fonte