Os vetores quentes devem ser dimensionados com atributos numéricos

No caso de ter uma combinação de atributos categóricos e numéricos, costumo converter os atributos categóricos em um vetor quente. Minha pergunta é: deixo esses vetores como estão e dimensiono os atributos numéricos por meio de padronização / normalização, ou devo dimensionar os vetores quentes juntos com os atributos numéricos?

feature-engineering feature-scaling data-science-model Suresh Kasipandy
fonte

Respostas:

Depois de convertidos para a forma numérica, os modelos não respondem de maneira diferente às colunas com codificação one-hot do que a qualquer outro dado numérico. Portanto, existe um claro precedente para normalizar os valores {0,1} se você estiver fazendo isso por algum motivo para preparar outras colunas.

O efeito de fazer isso dependerá da classe do modelo e do tipo de normalização que você aplicar, mas observei algumas (pequenas) melhorias ao escalar para significar 0, std 1 para dados categóricos codificados com um hot hot, ao treinar redes neurais.

Também pode fazer diferença para as classes de modelo baseadas em métricas de distância.

Infelizmente, como a maioria desses tipos de escolhas, muitas vezes você precisa tentar as duas abordagens e escolher a que tem a melhor métrica.

Neil Slater
fonte

A redação era um pouco clara. Você está dizendo que apenas normaliza colunas com um código quente se normalizou alguma coluna que não seja ohe?

Info5ek 14/02/19

@ Info5ek: Estou dizendo que talvez seja melhor normalizar as colunas com um código quente, e se você já estiver fazendo isso para outras colunas, poderá tentar. Não há regras fixas para isso, muito depende do problema em questão.

Neil Slater