Codificação fictícia para contrastes: 0,1 vs. 1, -1

"Variáveis dicotômicas do preditor", existem duas maneiras de codificar preditores dicotômicos: usando o contraste 0,1 ou o contraste 1, -1.

Isso está realmente errado. Não há limite para o número de maneiras pelas quais eles podem ser codificados. Esses dois são apenas os mais comuns (de fato entre eles, quase onipresentes) e provavelmente os mais fáceis de lidar.

Eu meio que entendo a distinção aqui (0,1 é codificação fictícia e 1, -1 adiciona a um grupo e subtrai do outro), mas não entendo qual usar na minha regressão.

O que for mais conveniente / apropriado. Se você tiver um experimento projetado com números iguais em cada um, há alguns aspectos interessantes da segunda abordagem; se você não fizer o primeiro, provavelmente é mais fácil de várias maneiras.

Por exemplo, se eu tiver dois preditores dicotômicos, sexo (m / f) e atleta (s / n), eu poderia usar contrastes 0,1 em ambos ou 1, -1 em ambos.

Qual seria a interpretação de um efeito principal ou um efeito de interação ao usar os dois contrastes diferentes?

a) (i) Considere um efeito principal de gênero (sem interação para simplificar) {m = 0, f = 1} - então o coeficiente correspondente àquele manequim medirá a diferença na média entre mulheres e homens (e a interceptação seria a média dos machos).

(ii) Para {m = -1, f = 1}, o efeito principal do gênero é metade da diferença na média e a interceptação é a média das médias (se o design for equilibrado, também será a média de todos os dados) . Equivalentemente, o principal efeito é a diferença de cada grupo em relação à interceptação.

b) (i) considere uma interação entre gênero {m = 0, f = 1} e atleta {n = 0, y = 1}

Agora, a interceptação representa a média dos não atletas do sexo masculino (0,0), o efeito principal do gênero é a diferença entre as médias das não atletas do sexo feminino e dos não atletas do sexo masculino, o efeito principal do atleta representa a diferença entre a média dos atletas do sexo masculino e do não atleta do sexo masculino e a interação é a diferença de duas diferenças - é a diferença média de atleta / não atleta para mulheres menos a diferença média de atleta / não atleta para marcas.

(ii) considere uma interação entre sexo {m = -1, f = -1} e atleta {n = -1, y = 1}

Agora, a interceptação representa a média das quatro médias de grupo (e se o design fosse completamente equilibrado, também seria a média geral). A interceptação é um quarto do que era antes.

Os principais efeitos são as médias dos efeitos das diferenças - o efeito de gênero é a média da diferença entre homens e mulheres nos atletas e a diferença entre homens e mulheres entre os não atletas. O principal efeito do atleta é a média da diferença atleta / não atleta entre mulheres e a diferença atleta / não atleta entre homens.

Depende se minhas células são de tamanhos diferentes?

O que você quer dizer com 'tamanhos diferentes'? Você quer dizer que o número de observações em cada célula é diferente? (Em caso afirmativo, mencionei em grande parte que números de células acima iguais dão significados adicionais / simplificam a interpretação, como tornar a interceptação a grande média dos dados, em vez de apenas a média das médias de grupo.)

Glen_b -Reinstate Monica
fonte

Resposta muito abrangente. Acrescentarei que não vejo literalmente nenhuma razão para codificar contrastes com um formato -1, 1 para níveis. Isso não apenas fornece tamanhos de efeito que não possuem interpretação direta (como "uma diferença dobrada associada no resultado comparando uma diferença de unidade no preditor"), mas também torna a interpretação da interceptação como uma quantidade fictícia (em vez que o resultado esperado para todas as variáveis iguais a zero). Eu defenderia sempre o uso de codificação 0/1 para variáveis fictícias.

AdamO

@AdamO Eu discordo. 1) Se você está preocupado com o fato de os códigos -1, + 1 não terem uma interpretação "direta", use apenas -,5, +. 2) Como observado por Glen_b, a interceptação sob esses códigos representa a média das médias do grupo; não está totalmente claro como isso é mais ou menos uma "quantidade fictícia" do que o próprio grupo significa (que pode ou não ser igual a QUALQUER das observações no conjunto de dados!). 3) Interações entre fatores codificados por dummy praticamente sempre anulam os efeitos simples de qualquer interpretação interessante / significativa; códigos de contraste oferecer uma interpretação muito mais natural aqui

Jake Westfall

Obrigado a todos. Na verdade, eu estava tendo problemas para interpretar os principais efeitos na presença de uma interação ao usar codificação fictícia. Percebi que o efeito principal de gênero era apenas para os não atletas (nenhum tipo de efeito de gênero foi medido em média sobre atletas e não atletas, que é o que recebo com contrastes). Dan

Dan

"a interceptação sob esses códigos representa a média das médias do grupo": a média de médias não é a média marginal, que é o único parâmetro com o qual acho que nos importamos. Somente sob um design equilibrado chegaríamos perto disso, e essa suposição é impraticável demais para nossos propósitos.

AdamO

@JakeWestfall Como você sabe, a interpretação da interceptação é como um valor médio na resposta quando todos os valores dos regressores são definidos como 0. Se esse valor não for provável ou pior, nem possível, a interceptação se tornará uma quantidade fictícia. Mesmo para binários 0/1, suponha que eu indique dois regressores- (0: grávidas, 1: não grávidas) (0: homens 1: mulheres) para o VEF. A interceptação no modelo é o VEF médio em homens grávidas. Agora, se eu codificar -1: homem 1: mulher, a interceptação não tem absolutamente nenhuma interpretação, exceto a "média da resposta média em homens e mulheres".

AdamO 21/05

Codificação fictícia para contrastes: 0,1 vs. 1, -1

Respostas: