Quando remover variáveis ​​correlacionadas

11

Alguém pode sugerir qual é o estágio correto para remover as variáveis ​​correlacionadas antes da engenharia de recursos ou depois da engenharia de recursos?

bp89
fonte

Respostas:

8

Você não deseja remover todas as variáveis ​​correlacionadas. Somente quando a correlação é tão forte é que eles não transmitem informações extras. Isso é uma função da força da correlação, da quantidade de dados que você possui e se alguma pequena diferença entre as variáveis ​​correlacionadas diz algo sobre o resultado, afinal.

Os dois primeiros que você pode dizer antes de fazer qualquer modelo, o final não. Portanto, pode ser muito razoável remover variáveis ​​com base na combinação das duas primeiras considerações (ou seja, mesmo que as variáveis ​​extras possam, em princípio, conter algumas informações úteis, você não seria capaz de saber, dada a força da correlação e a quantidade de dados você possui) antes de executar qualquer modelagem / engenharia de recursos. O ponto final só pode realmente ser avaliado após a modelagem.

Björn
fonte
2

Estranho que ninguém mais tenha mencionado interpretabilidade .

Se você só se preocupa com o desempenho , não faz sentido remover duas variáveis ​​correlacionadas, a menos que correlação = 1 ou -1; nesse caso, uma das variáveis ​​é redundante.

Mas se estiver preocupado com a interpretabilidade, pode fazer sentido remover uma das variáveis, mesmo que a correlação seja leve. Isto é particularmente verdade para modelos lineares. Um dos pressupostos da regressão linear é a falta de multicolinearidade perfeita nos preditores.

Se A estiver correlacionado com B, não será possível interpretar os coeficientes nem de A nem B. Para ver por que, imagine o caso extremo em que A = B (correlação perfeita). Então, o modelo y = 100 * A + 50 * B é o mesmo que o modelo y = 5 * A + 10 * B ou y = -2000 * A + 4000 * B. Existem vários equilíbrios nas soluções possíveis para o problema de minimização do quadrado mínimo, portanto você também não pode "confiar".

Coisas semelhantes podem acontecer com outros modelos. Por exemplo, se A estiver muito correlacionado com B, se a árvore de decisão escolher A dobrar os tempos como B, não será possível dizer que A é mais importante que B. Se você treinar novamente o modelo, o contrário poderia ter acontecido.

Ricardo Cruz
fonte
2

Você deve verificar o VIF (fator de inflação de variação). Tente remover recursos com VIF mais alto. Geralmente, é preferível que o VIF esteja abaixo de 10.

Siddhi Kiran Bajracharya
fonte
Isto é bem parecido com a minha resposta em datascience.stackexchange.com/questions/36634/…
Siddhi Kiran Bajracharya
1

Não importa. Mas para eficiência antes da engenharia de recursos.

Mohit Motwani
fonte
1

Determine a covariância e faça seu trabalho inicial com o conjunto mais alto.

Richard Careaga
fonte