Notei que, ao mexer em um modelo de regressão multivariada, houve um efeito multicolinearidade pequeno, mas perceptível, medido por fatores de inflação de variação, dentro das categorias de uma variável categórica (depois de excluir a categoria de referência, é claro).
Por exemplo, digamos que temos um conjunto de dados com a variável contínua y e uma variável categórica nominal x que tem k possíveis valores mutuamente exclusivos. Codificamos esses valores possíveis como 0/1 variáveis fictícias . Em seguida, executamos um modelo de regressão . As pontuações do VIF para as variáveis dummy são diferentes de zero. De fato, à medida que o número de categorias aumenta, os VIFs aumentam. Centralizar as variáveis fictícias não parece alterar os VIFs.x 1 , x 2 , … , x k y = b 0 + b 1 x 1 + b 2 x 2 + ⋯ + b k - 1 x k - 1 k - 1
A explicação intuitiva parece ser que a condição mutuamente exclusiva das categorias dentro da variável categórica causa essa ligeira multicolinearidade. Esta é uma descoberta trivial ou é um problema a considerar ao criar modelos de regressão com variáveis categóricas?