"Variável dummy" e "variável indicadora" são termos usados com frequência para descrever a participação em uma categoria com codificação 0/1; geralmente 0: não é membro da categoria, 1: membro da categoria.
Em 26/11/2014, uma pesquisa rápida em scholar.google.com (com aspas anexas) revela que "variável dummy" é usada em cerca de 318.000 artigos e "variável indicadora" é usada em cerca de 112.000 artigos. O termo "variável dummy" também tem um significado na matemática não estatística de " variável vinculada ", o que provavelmente está contribuindo para o maior uso da "variável dummy" em artigos indexados.
Minhas perguntas vinculadas topicamente:
- Esses termos são sempre sinônimos (dentro das estatísticas)?
- Algum desses termos é aplicado de forma aceitável a outras formas de codificação categórica (por exemplo , codificação de efeitos , codificação de Helmert, etc. )?
- Que razões estatísticas ou disciplinares existem para preferir um termo ao outro?
male
com valores1
ou0
. Se houver uma variável categórica com mais de 2 categorias que será expandida para variáveis indicadoras para associação em cada nível, eu usaria "variáveis simuladas" para descrever esse conjunto de variáveis indicadoras.sex
.male
, onde 1 significa verdadeiro (neste caso, masculino) e 0 significa falso (neste caso, feminino). Se eu usar o nome da variávelsex
, terei que pesquisar como codifiquei essa variável toda vez que retornar a esse conjunto de dados.Respostas:
Eu diria que "variável dummy" é uma maneira mais geral de se referir a (uma) das variáveis numéricas que representam (representam juntas) um preditor categórico; portanto, o termo se aplica também àqueles usados na Helmert e na codificação de efeitos † . Isso se deve principalmente ao uso geral de "manequim" para significar "substituto". "Variável indicadora" relaciono-me às funções dos indicadores ‡ - de modo que elas podem ser apenas uma ou zero para indicar ter ou não alguma propriedade; portanto, o termo se aplica somente àqueles usados na codificação em nível de referência ※ . É claro que algumas pessoas usam "codificação fictícia" para significar "codificação em nível de referência"; eles presumivelmente têm uma definição mais restrita de "variáveis dummy", ou de qualquer forma deveriam ter.
† E se você não chama esses "manequins", o que chama?
‡ Assim, por exemplo, o manequim é uma variável indicadora para quando o i th pessoa u i é macho (um membro do conjunto M ): x i = 1 M ( L i ) = { 1 w h e n u i ∈ H 0 w h e n u i ∉ Mxi i ui M
onde é a função indicadora de associação a M1M(⋅) M .
※ Ou, como o @gung apontou, nível significa codificação.
fonte
@ Scortchi forneceu uma boa resposta aqui. Deixe-me acrescentar um pequeno ponto. Mesmo usando a definição mais rigorosa da variável indicadora, isso ainda pode ser associado a (pelo menos) dois esquemas de codificação diferentes para dados categóricos em um modelo do tipo regressão: viz. nível de referência codificação e nível significa codificação . Com nível significa codificação, você tem uma variável categórica comk níveis que são representados com k variáveis de indicador, mas você não inclui um vetor de 1 1 s para a interceptação (ou seja, a interceptação é suprimida). (Para uma explicação mais completa, com exemplos de matrizes de modelo, veja minha resposta aqui: como a regressão logística pode ter um fator fator preditor e nenhuma interceptação? ) Quando existe apenas uma única variável categórica, ela gera a saída do modelo de uma maneira simples e pode ser preferido por algumas pessoas. (Para um exemplo em que o uso desse esquema facilita comparações de interesse, veja minha resposta aqui: Por que os valores estimados de um Melhor Preditor Imparcial e Linear (BLUP) diferem de um Melhor Estimador Imparcial e Linear (AZUL)? )
fonte