Como usamos uma codificação quente se o número de valores que uma variável categórica pode receber é grande?
No meu caso, são 56 valores. Portanto, conforme o método usual, eu teria que adicionar 56 colunas (56 recursos binários) no conjunto de dados de treinamento, o que aumentará imensamente a complexidade e, portanto, o tempo de treinamento.
Então, como lidamos com esses casos?
Respostas:
Se você realmente se importa com o número de dimensões, ainda pode tentar aplicar um algoritmo de redução de dimensionalidade, como PCA (Principal Component Analysis) ou LDA (Linear Discriminant Analysis), após sua única codificação a quente.
Mas saiba que "56 recursos" não são realmente grandes e é altamente comum no setor ter milhares, milhões ou até bilhões de recursos.
fonte
Você pode tentar reduzir a dimensão dos 56 recursos fictícios resultantes, se tiver algumas categorias que representam uma pequena proporção em comparação com a maioria, rotulando-as da mesma forma.
fonte
Quando houver um grande número de variáveis categóricas, é aconselhável fazer uma contra a de repouso.
fonte