Qual é a diferença entre uma codificação quente e outra excluída?

13

Estou lendo uma apresentação e ela recomenda não usar a codificação deixar uma de fora, mas tudo bem com uma codificação quente. Eu pensei que ambos eram iguais. Alguém pode descrever quais são as diferenças entre eles?

icm
fonte
1
Não está claro (apenas da sua pergunta) o que é deixar de fora. Você deve editá-lo para fornecer um ponteiro e explicar brevemente sua compreensão dos dois, e por que você acha que eles são os mesmos.
Sean Owen

Respostas:

15

Eles provavelmente estão usando "deixar uma codificação de fora" para se referir à estratégia de Owen Zhang.

De: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

A coluna codificada não é uma variável fictícia convencional, mas é a resposta média em todas as linhas para este nível categórico, excluindo a própria linha. Isso oferece a vantagem de ter uma representação em uma coluna do categórico, evitando o vazamento de resposta direta

Esta imagem expressa bem a ideia. insira a descrição da imagem aqui

Dex Groves
fonte
Sua explicação é melhor do que wacax de na ligação referido, obrigado
Allan Ruin
Olá @Dex Groves, a codificação leave_one_out para o teste é sempre 0,5.
user7117436
3
Oi! Como visto na figura, este exemplo paticular se refere ao problema de classificação. Alguém tem uma experiência com a codificação LOO no problema de regressão? A principal questão é como agregar a variável de destino. Agora estou fazendo experimentos e tenho uma super adaptação com média (y).
Alexey Trofimov
1
para um problema de agrupamento (não supervisionado), é possível usar esse tipo de codificação?
enneppi
@AlexeyTrofimov - tente uma agregação com uma variação menor. Eu começaria com binning diferente (como 1K, 2K, 2M, .. para grandes valores y int, ou algum arredondamento para uma casa decimal para valores float y) => média (bin_f (y))
Mork