Alguém pode sugerir qual é o estágio correto para remover as variáveis correlacionadas antes da engenharia de recursos ou depois da engenharia de recursos?
Alguém pode sugerir qual é o estágio correto para remover as variáveis correlacionadas antes da engenharia de recursos ou depois da engenharia de recursos?
Você não deseja remover todas as variáveis correlacionadas. Somente quando a correlação é tão forte é que eles não transmitem informações extras. Isso é uma função da força da correlação, da quantidade de dados que você possui e se alguma pequena diferença entre as variáveis correlacionadas diz algo sobre o resultado, afinal.
Os dois primeiros que você pode dizer antes de fazer qualquer modelo, o final não. Portanto, pode ser muito razoável remover variáveis com base na combinação das duas primeiras considerações (ou seja, mesmo que as variáveis extras possam, em princípio, conter algumas informações úteis, você não seria capaz de saber, dada a força da correlação e a quantidade de dados você possui) antes de executar qualquer modelagem / engenharia de recursos. O ponto final só pode realmente ser avaliado após a modelagem.
Estranho que ninguém mais tenha mencionado interpretabilidade .
Se você só se preocupa com o desempenho , não faz sentido remover duas variáveis correlacionadas, a menos que correlação = 1 ou -1; nesse caso, uma das variáveis é redundante.
Mas se estiver preocupado com a interpretabilidade, pode fazer sentido remover uma das variáveis, mesmo que a correlação seja leve. Isto é particularmente verdade para modelos lineares. Um dos pressupostos da regressão linear é a falta de multicolinearidade perfeita nos preditores.
Se A estiver correlacionado com B, não será possível interpretar os coeficientes nem de A nem B. Para ver por que, imagine o caso extremo em que A = B (correlação perfeita). Então, o modelo y = 100 * A + 50 * B é o mesmo que o modelo y = 5 * A + 10 * B ou y = -2000 * A + 4000 * B. Existem vários equilíbrios nas soluções possíveis para o problema de minimização do quadrado mínimo, portanto você também não pode "confiar".
Coisas semelhantes podem acontecer com outros modelos. Por exemplo, se A estiver muito correlacionado com B, se a árvore de decisão escolher A dobrar os tempos como B, não será possível dizer que A é mais importante que B. Se você treinar novamente o modelo, o contrário poderia ter acontecido.
Não importa. Mas para eficiência antes da engenharia de recursos.
fonte
Determine a covariância e faça seu trabalho inicial com o conjunto mais alto.
fonte