Uma codificação Hot para grande número de valores

7

Como usamos uma codificação quente se o número de valores que uma variável categórica pode receber é grande?

No meu caso, são 56 valores. Portanto, conforme o método usual, eu teria que adicionar 56 colunas (56 recursos binários) no conjunto de dados de treinamento, o que aumentará imensamente a complexidade e, portanto, o tempo de treinamento.

Então, como lidamos com esses casos?

mach
fonte
3
Olhe em função de hashing
Emre
Qual algoritmo você usa? O SGD pode processar centenas de milhares de recursos em centenas de milhares de linhas de dados em poucos minutos em um laptop.
Diego

Respostas:

9

Se você realmente se importa com o número de dimensões, ainda pode tentar aplicar um algoritmo de redução de dimensionalidade, como PCA (Principal Component Analysis) ou LDA (Linear Discriminant Analysis), após sua única codificação a quente.

Mas saiba que "56 recursos" não são realmente grandes e é altamente comum no setor ter milhares, milhões ou até bilhões de recursos.

jmvllt
fonte
é normal ter 50 recursos e 60 categorias usando RNNs?
Boppity Bop
2

Você pode tentar reduzir a dimensão dos 56 recursos fictícios resultantes, se tiver algumas categorias que representam uma pequena proporção em comparação com a maioria, rotulando-as da mesma forma.

Alexandru Daia
fonte
Existe alguma maneira de descobrir quais recursos devem ser agrupados, porque no meu caso todos os recursos são mais ou menos igualmente importantes ..?
mach
Experimente aqueles com pequena frequência!
Alexandru Daia
... ou você pode tornar os valores mais granulares. por exemplo, Nordeste, Atlântico Central, etc., em vez dos 50 estados. Existe algum tipo de conhecimento de domínio que você possa usar para mesclar certos fatores?
11
Como você sabe que todos os valores categóricos são igualmente importantes? Qual foi a sua metodologia ... você fez a correlação de Pearson com o alvo, regressão do laço, árvore de decisão, ...? Como você está avaliando a importância do recurso?
AN6U5
-1

Quando houver um grande número de variáveis ​​categóricas, é aconselhável fazer uma contra a de repouso.

Rishiraj Surti
fonte