Variável de indicador para dados binários: {-1,1} vs {0,1}

10

Estou interessado na interação tratamento-covariáveis no contexto de experiências / ensaios clínicos randomizados, com um binário indicador de atribuição de tratamento .T

Dependendo do método / fonte específico, vi e para os sujeitos tratados e os não tratados, respectivamente.T = { 1 , - 1 }T={1,0}T={1,1}

Existe alguma regra prática quando usar ou ?{ 1 , - 1 }{1,0}{1,1}

De que maneira a interpretação difere?

cecefuss
fonte
FWIW ... Este primeiro link fornece uma visão geral bastante abrangente de diferentes esquemas de codificação ... ats.ucla.edu/stat/r/library/contrast_coding.htm Este segundo link discute codificação de indicador (dummy), efeito e ortogonal (contraste) ... faculty.cas.usf.edu/mbrannick/regression/anova1.html
Mike Hunter

Respostas:

10

A interpretação do estimador da variável indicador e da interceptação diferem. Vamos começar com :{1,0}

Digamos que você tenha o seguinte modelo

yi=β0+treatmentβ1

Onde

treatment={0if placebo1if drug

Nesse caso, você acaba com as seguintes fórmulas para :yi

yi={β0+0β1=β0if placeboβ0+1β1=β0+β1if drug

Portanto, a interpretação de é o efeito do placebo e a interpretação de é a diferença entre o efeito do placebo e o efeito do medicamento. Com efeito, você pode interpretar como a melhoria que o medicamento oferece.β 1 β 1β0β1β1


Agora vamos ver :{1,1}

Você tem o seguinte modelo (novamente):

yi=β0+treatmentβ1

mas onde

treatment={1if placebo1if drug

Nesse caso, você acaba com as seguintes fórmulas para :yi

yi={β0+1β1=β0β1if placeboβ0+1β1=β0+β1if drug

A interpretação aqui é que é a média do efeito do placebo e do efeito da droga, e é a diferença dos dois tratamentos para essa média.β 1β0β1


Então, qual você usa?

A interpretação de em é basicamente uma linha de base. Você define algum tratamento padrão e todos os outros tratamentos (podem haver vários) são comparados com esse padrão / linha de base. Especialmente quando você começa a adicionar outras covariáveis, isso permanece fácil de interpretar com relação à pergunta médica padrão: como esses medicamentos se comparam com um placebo ou com o medicamento estabelecido? { 0 , 1 }β0{0,1}

Mas, no final, tudo é uma questão de interpretação, que expliquei acima. Portanto, você deve avaliar suas hipóteses e verificar qual interpretação torna o desenho das conclusões o mais direto.

JAD
fonte
6
A constante ao usar a codificação -1, 1 é a média se o número de respondentes no grupo tratado for o mesmo que o número de respondentes no grupo de controle.
Maarten Buis
@MaartenBuis É a média de sse o design é equilibrado, mas caso contrário, ainda é a média dos dois meios de grupo, que é o que eu quis dizer. Mudei a redação para refletir isso. y
JAD 5/11
9
Útil. Eu sempre tento incentivar o uso do indicador de palavras em vez de falso (como na pergunta original!) Por pelo menos duas razões. Primeiro, ouvi muitas histórias nas quais as apresentações foram muito ruins porque termos como "manequim de gênero" foram mal interpretados como depreciativos ou ofensivos por pessoas menos técnicas. Segundo, o termo manequim faz com que todo o dispositivo pareça um fudge ou esquiva, enquanto é um método perfeitamente limpo e elegante. Não tenho muita chance de mudar práticas entrincheiradas em alguns campos, mas aqui está uma tentativa.
Nick Cox
Concordado, parece mais profissional também. Além disso, é uma descrição melhor do que está realmente fazendo.
JAD
2
Que bom que você concorda. Aqui está uma maneira simples de explicar: é chamado de indicador porque indica!
Nick Cox
6

No contexto da regressão linear, é o método mais natural (e padrão) para codificar variáveis ​​binárias (colocando-as no lado esquerdo do lado direito da regressão). Como explica o @Jarko Dubbeldam, é claro que você pode usar a outra interpretação e o significado dos coeficientes será diferente.xi{0,1}

Para dar um exemplo de outra maneira, a codificação das variáveis ​​de saída é padrão ao programar ou derivar a matemática subjacente às máquinas de vetores de suporte . (Ao chamar bibliotecas, você deseja passar os dados no formato que a biblioteca espera, que provavelmente é a formulação 0, 1).yi{1,1}

Tente usar a notação que é padrão para o que você está fazendo / usando.


Para qualquer tipo de modelo linear com um termo de interceptação, os dois métodos serão equivalentes no sentido de que estão relacionados por uma simples transformação linear. Matematicamente, não importa se você usa a matriz de dados ou a matriz de dados ˜ X = X A em que A é a classificação completa. Em modelos lineares generalizados, seus coeficientes estimados de qualquer maneira serão relacionados pela transformação linear e os valores ajustados serão os mesmos.XX~=XAAyAy^

Matthew Gunn
fonte
+1, não consegui pensar em uma configuração em que foi usada. {-1 1,1 1}
JAD
AdaBoost é um outro exemplo que utiliza yEu{-1 1,1 1}
Francis
5
Em geral, você poderia dizer que é usado predominantemente na classificação, porque torna a aplicação da função de sinal uma maneira viável de classificar. {-1 1,1 1}
JAD
@matthewgunn O autor está falando das covariáveis, ou seja, das entradas e não das saídas. O {-1, 1} faz sentido para vetores de suporte para a saída, mas isso não importa para a entrada. Veja aqui: en.wikipedia.org/wiki/Support_vector_machine#Linear_SVM
Francisco Arceo
@FranciscoArceo Ponto realizado; Eu editei para ser mais preciso.
Matthew Gunn
2

Isso é mais abstrato (e talvez inútil), mas observarei que essas duas representações são, em sentido matemático, na verdade representações de grupo, e há um isomorfismo entre elas.

TT1 1T2T1 1T2Z21 1,0 01 1,-1 1umab=1 1-(uma+b)umab=umabϕ(uma)=2uma-1 1

pTTTpp=pp+(1 1-p)(1 1-p)t(p)=2p-1 1tt=ttt

jwimberley
fonte
Isso é impressionante, mas acho suficiente observar que qualquer correspondência válida entre {-1, 1} e {0, 1} deve ser um para um: não há necessidade de invocar nada além da matemática do ensino médio. Estamos necessariamente falando da mesma informação, apenas codificada de forma diferente.
Nick Cox