Quando remover variáveis correlacionadas

11

Alguém pode sugerir qual é o estágio correto para remover as variáveis correlacionadas antes da engenharia de recursos ou depois da engenharia de recursos?

machine-learning feature-selection data-science-model bp89
fonte

8

Você não deseja remover todas as variáveis correlacionadas. Somente quando a correlação é tão forte é que eles não transmitem informações extras. Isso é uma função da força da correlação, da quantidade de dados que você possui e se alguma pequena diferença entre as variáveis correlacionadas diz algo sobre o resultado, afinal.

Os dois primeiros que você pode dizer antes de fazer qualquer modelo, o final não. Portanto, pode ser muito razoável remover variáveis com base na combinação das duas primeiras considerações (ou seja, mesmo que as variáveis extras possam, em princípio, conter algumas informações úteis, você não seria capaz de saber, dada a força da correlação e a quantidade de dados você possui) antes de executar qualquer modelagem / engenharia de recursos. O ponto final só pode realmente ser avaliado após a modelagem.

Björn
fonte

2

Estranho que ninguém mais tenha mencionado interpretabilidade .

Se você só se preocupa com o desempenho , não faz sentido remover duas variáveis correlacionadas, a menos que correlação = 1 ou -1; nesse caso, uma das variáveis é redundante.

Mas se estiver preocupado com a interpretabilidade, pode fazer sentido remover uma das variáveis, mesmo que a correlação seja leve. Isto é particularmente verdade para modelos lineares. Um dos pressupostos da regressão linear é a falta de multicolinearidade perfeita nos preditores.

Se A estiver correlacionado com B, não será possível interpretar os coeficientes nem de A nem B. Para ver por que, imagine o caso extremo em que A = B (correlação perfeita). Então, o modelo y = 100 * A + 50 * B é o mesmo que o modelo y = 5 * A + 10 * B ou y = -2000 * A + 4000 * B. Existem vários equilíbrios nas soluções possíveis para o problema de minimização do quadrado mínimo, portanto você também não pode "confiar".

Coisas semelhantes podem acontecer com outros modelos. Por exemplo, se A estiver muito correlacionado com B, se a árvore de decisão escolher A dobrar os tempos como B, não será possível dizer que A é mais importante que B. Se você treinar novamente o modelo, o contrário poderia ter acontecido.

Ricardo Cruz
fonte

2

Você deve verificar o VIF (fator de inflação de variação). Tente remover recursos com VIF mais alto. Geralmente, é preferível que o VIF esteja abaixo de 10.

Siddhi Kiran Bajracharya
fonte

Isto é bem parecido com a minha resposta em datascience.stackexchange.com/questions/36634/…

Siddhi Kiran Bajracharya

1

Não importa. Mas para eficiência antes da engenharia de recursos.

Mohit Motwani
fonte

1

Determine a covariância e faça seu trabalho inicial com o conjunto mais alto.

Richard Careaga
fonte

Quando remover variáveis ​​correlacionadas

Respostas:

Quando remover variáveis correlacionadas