Quando algoritmos ML, por exemplo, Vowpal Wabbit ou algumas das máquinas de fatoração que vencem competições de taxa de cliques ( Kaggle ), mencionam que os recursos são 'hash', o que isso realmente significa para o modelo? Vamos dizer que existe uma variável que representa o ID de um complemento da Internet, que assume valores como '236BG231'. Então eu entendo que esse recurso é hash para um número inteiro aleatório. Mas, minha pergunta é:
- O número inteiro agora é usado no modelo como um número inteiro (numérico) OU
- o valor do hash ainda é tratado como uma variável categórica e codificado com um código quente? Assim, o truque de hash é apenas para economizar espaço de alguma forma com grandes dados?