Estou lendo uma apresentação e ela recomenda não usar a codificação deixar uma de fora, mas tudo bem com uma codificação quente. Eu pensei que ambos eram iguais. Alguém pode descrever quais são as diferenças entre eles?
13
Estou lendo uma apresentação e ela recomenda não usar a codificação deixar uma de fora, mas tudo bem com uma codificação quente. Eu pensei que ambos eram iguais. Alguém pode descrever quais são as diferenças entre eles?
Respostas:
Eles provavelmente estão usando "deixar uma codificação de fora" para se referir à estratégia de Owen Zhang.
De: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories
A coluna codificada não é uma variável fictícia convencional, mas é a resposta média em todas as linhas para este nível categórico, excluindo a própria linha. Isso oferece a vantagem de ter uma representação em uma coluna do categórico, evitando o vazamento de resposta direta
Esta imagem expressa bem a ideia.
fonte