"Variável dummy" versus "variável indicadora" para dados nominais / categóricos

15

"Variável dummy" e "variável indicadora" são termos usados ​​com frequência para descrever a participação em uma categoria com codificação 0/1; geralmente 0: não é membro da categoria, 1: membro da categoria.

Em 26/11/2014, uma pesquisa rápida em scholar.google.com (com aspas anexas) revela que "variável dummy" é usada em cerca de 318.000 artigos e "variável indicadora" é usada em cerca de 112.000 artigos. O termo "variável dummy" também tem um significado na matemática não estatística de " variável vinculada ", o que provavelmente está contribuindo para o maior uso da "variável dummy" em artigos indexados.

Minhas perguntas vinculadas topicamente:

  1. Esses termos são sempre sinônimos (dentro das estatísticas)?
  2. Algum desses termos é aplicado de forma aceitável a outras formas de codificação categórica (por exemplo , codificação de efeitos , codificação de Helmert, etc. )?
  3. Que razões estatísticas ou disciplinares existem para preferir um termo ao outro?
Alexis
fonte
4
Eu costumo usar "variável indicadora" para condições binárias, por exemplo, sexo pode ser codificado como malecom valores 1ou 0. Se houver uma variável categórica com mais de 2 categorias que será expandida para variáveis ​​indicadoras para associação em cada nível, eu usaria "variáveis ​​simuladas" para descrever esse conjunto de variáveis ​​indicadoras.
Gregor --reinstate Monica--
2
Eu acho que você quer dizer que o sexo pode ser codificado como 1 ou 0, o gênero é uma construção muito mais complicada. (para que o sexo matéria pode ser mais complicado também);)
Alexis
2
ponto bem tirado, editado para sex.
Gregor --reinstate Monica--
2
Costumo chamar essa variável de indicador male, onde 1 significa verdadeiro (neste caso, masculino) e 0 significa falso (neste caso, feminino). Se eu usar o nome da variável sex, terei que pesquisar como codifiquei essa variável toda vez que retornar a esse conjunto de dados.
Maarten Buis
4
Ouvi várias histórias de "variável dummy" sendo louca e infelizmente mal interpretadas por públicos não técnicos como desdém ou depreciação. Eles foram embaraçosos e convincentes o suficiente para me virar contra o termo. "indicador" é para mim claro e direto.
Nick Cox

Respostas:

12

Eu diria que "variável dummy" é uma maneira mais geral de se referir a (uma) das variáveis ​​numéricas que representam (representam juntas) um preditor categórico; portanto, o termo se aplica também àqueles usados ​​na Helmert e na codificação de efeitos . Isso se deve principalmente ao uso geral de "manequim" para significar "substituto". "Variável indicadora" relaciono-me às funções dos indicadores - de modo que elas podem ser apenas uma ou zero para indicar ter ou não alguma propriedade; portanto, o termo se aplica somente àqueles usados ​​na codificação em nível de referência . É claro que algumas pessoas usam "codificação fictícia" para significar "codificação em nível de referência"; eles presumivelmente têm uma definição mais restrita de "variáveis ​​dummy", ou de qualquer forma deveriam ter.

† E se você não chama esses "manequins", o que chama?

‡ Assim, por exemplo, o manequim é uma variável indicadora para quando o i th pessoa u i é macho (um membro do conjunto M ): x i = 1 M ( L i ) = { 1 w h e n u iH 0 w h e n u iMxiiuiM

xi=1M(ui)={1when uiM0when uiM

onde é a função indicadora de associação a M1M()M .

※ Ou, como o @gung apontou, nível significa codificação.

Scortchi - Restabelecer Monica
fonte
2
Huh ... você pode fornecer links para alguns recursos que motivam isso? Na minha experiência, a "variável dummy" se acostuma bastante à codificação 0/1. Não tenho certeza de ter visto o manequim usado como você sugere, e sei que outros o usam no sentido oposto. Por exemplo, Alkharusi, H. (2012) "Variáveis ​​categóricas na análise de regressão: uma comparação da codificação fictícia e de efeito" International Journal of Education 4 (2): 202–210.
Alexis26
2
Eu não disse que "variável dummy" não é usada para codificação 0/1, apenas que pode ser usada em um sentido mais geral.
Scortchi - Restabelece Monica
11
De fato, o próprio artigo que você cita diz que, usando a codificação de efeitos, "as variáveis ​​dummy assumem os valores 1, 0 e -1". (É claro que acho que eles deveriam ter chamado de "codificação fictícia" outra coisa, se quiserem dizer isso.)
Scortchi - Reintegrar Monica
11
Entendi ... quanto à pergunta do seu sobrescrito em punho, eu os chamo de "variáveis ​​categóricas usando a codificação XXX".
Alexis #
2
O argumento é melhor apresentado por Knuth em arxiv.org/abs/math/9205211. Ele atribui a idéia a KE Iverson. Em resumo, não precisamos inventar ou chamar uma função de indicador, mas seguir em discussão formal o que nosso software faz por nós.
Nick Cox
6

@ Scortchi forneceu uma boa resposta aqui. Deixe-me acrescentar um pequeno ponto. Mesmo usando a definição mais rigorosa da variável indicadora, isso ainda pode ser associado a (pelo menos) dois esquemas de codificação diferentes para dados categóricos em um modelo do tipo regressão: viz. nível de referência codificação e nível significa codificação . Com nível significa codificação, você tem uma variável categórica comk níveis que são representados com k variáveis ​​de indicador, mas você não inclui um vetor de 1 1s para a interceptação (ou seja, a interceptação é suprimida). (Para uma explicação mais completa, com exemplos de matrizes de modelo, veja minha resposta aqui: como a regressão logística pode ter um fator fator preditor e nenhuma interceptação? ) Quando existe apenas uma única variável categórica, ela gera a saída do modelo de uma maneira simples e pode ser preferido por algumas pessoas. (Para um exemplo em que o uso desse esquema facilita comparações de interesse, veja minha resposta aqui: Por que os valores estimados de um Melhor Preditor Imparcial e Linear (BLUP) diferem de um Melhor Estimador Imparcial e Linear (AZUL)? )

- Reinstate Monica
fonte