Entendo a lógica da codificação para análise de dados. Minha pergunta abaixo é sobre o uso de um código específico.
- Existe uma razão pela qual o sexo é frequentemente codificado como 0 para o sexo feminino e 1 para o sexo masculino?
- Por que essa codificação é considerada 'padrão'?
- Compare isso com Feminino = 1 e Masculino = 2. Há algum problema com esta codificação?
data-transformation
binary-data
categorical-encoding
units
Adhesh Josh
fonte
fonte
Respostas:
Razões para preferir a codificação zero-um de variáveis binárias:
Pontos variados sobre a codificação de variáveis binárias:
y = a + b * Male
vez dey = a + b * Gender
.fonte
Isso facilita a interpretação dos resultados. Suponha que você tenha alguns dados de altura:
e você fez uma regressão do formulário
Height = a + b * Gender + Residual
.Com a variável dummy 0,1, você obteria uma estimativa de
a
170 sendo a altura média das mulheres eb
de 10 sendo a diferença entre as alturas médias dos homens e das mulheres.Com a variável 1,2 dummy, você obteria uma estimativa
a
de 160, que é mais difícil de interpretar.fonte
Eu supus que isso acontecesse porque o tipo de campo frequentemente usado para armazenar sexo é um campo de bits, e os campos de bits no SQL podem ter apenas os valores 0 ou 1. Quando você despeja os dados, eles saem como 0 ou 1, e é por isso que você obtém esses valores específicos.
Se você quisesse usar 1 e 2, teria que usar um tipo de campo maior, que ocuparia mais espaço e, assim, tornaria o banco de dados um pouco maior.
fonte
Um professor sugeriu que codificássemos "biologicamente" as mulheres com 0 e os homens com 1 - para refletir a anatomia. Eu não acho que foi a coisa mais sensível ou PC a se dizer em uma classe, mas definitivamente fácil de lembrar quando se olha para um conjunto de dados cinco anos depois.
fonte
Muitas boas razões postadas até agora, mas também devem ser reflexivas. Por que você começaria a contar com 1? Isso torna muitos algoritmos numéricos muito mais complicados. A rotulagem começa em 0, não em 1. Se você ainda não está convencido disso, tenho um bom exemplo de por que é importante em http://madhadron.com/?p=69
Quanto ao motivo pelo qual as mulheres são 0 e os homens são 1, lembremos que, durante grande parte de sua história, um estatístico provavelmente era um homem hetero. Quando solicitado a nomear um sexo, o primeiro a se lembrar foi 'mulher'. Tudo depois disso foi provavelmente acidente histórico e racionalização.
fonte
A norma ISO / IEC 5218 atualiza essa noção com o seguinte mapa:
Isso é particularmente útil em idiomas em que 0 coage para um valor falso, como no JavaScript:
fonte
A maneira como vejo pessoalmente é fálicamente 0 representa tipicamente feminino, como é a forma do útero e considerado feminino ... em quase todas as ciências (ou seja, nos gráficos de linhagem de biologia / genética) círculos ou zeros representam fêmeas. Onde mais formas de arestas retas (triângulos, quadrados ou 1s) tendem a representar o sexo masculino. Esse simples entendimento facilitou sempre lembrar qual é qual para mim.
Embora no final do dia, se você é o único que codifica e analisa os dados, pode colocar os números desejados, geralmente desde que exista uma chave para qual variável dummy usada para a qual ela se torna irrelevante.
fonte