Estou ciente do fato de que variáveis categóricas com níveis k devem ser codificadas com variáveis k-1 na codificação dummy (da mesma forma para variáveis categóricas com valores múltiplos). Eu queria saber quanto de um problema uma codificação one-hot (ou seja, usando variáveis k) em vez de codificação fictícia para diferentes métodos de regressão, principalmente regressão linear, regressão linear penalizada (Lasso, Ridge, ElasticNet), baseada em árvores (florestas aleatórias , máquinas de aumento de gradiente).
Sei que na regressão linear ocorrem problemas com múltiplas colinearidades (embora na prática eu tenha ajustado a regressão linear usando OHE sem problemas).
No entanto, a codificação fictícia precisa ser usada em todas elas e quão errados os resultados seriam se alguém usar a codificação one-hot?
Meu foco está na previsão em modelos de regressão com múltiplas variáveis categóricas (alta cardinalidade), por isso não estou interessado em intervalos de confiança.
Respostas:
A penalização tornará o modelo identificável, mas a codificação redundante ainda afetará os valores dos parâmetros de maneiras estranhas, considerando o exposto acima.
O efeito de uma codificação redundante em uma árvore de decisão (ou conjunto de árvores) provavelmente sobrecarregará o recurso em questão em relação a outros, uma vez que é representado por uma variável redundante extra e, portanto, será escolhido com mais frequência do que seria para divide.
fonte
O Kodiologista teve uma ótima resposta (+1). Os métodos de codificação one-hot vs. codificação dummy são os mesmos, em termos de matriz de design, no mesmo espaço, com base diferente. (embora a codificação one-hot tenha mais colunas)
Portanto, se você estiver focando na precisão, e não na interpretabilidade. Dois métodos de codificação não fazem diferença.
fonte
Sinto-me a melhor resposta a esta pergunta está enterrado nos comentários por @MatthewDrury, que afirma que não é uma diferença e que você deve usar a coluna aparentemente redundante em qualquer abordagem regularizada. @ O raciocínio de MatthewDrury é
Eu acho que ele tem razão.
fonte
k
níveis ou comk-1
níveis dependendo da situação. Além da sua declaração (regularizada / não regularizada), haveria diretrizes sobre o que fazer em todos os casos?