Quais são os diferentes tipos de codificação disponíveis para variáveis ​​categóricas (em R) e quando você as utilizaria?

14

Se você ajustar um modelo linear ou um modelo misto, existem diferentes tipos de codificação disponíveis para transformar uma variedade categórica ou nominal em um número de variáveis ​​para as quais os parâmetros são estimados, como a dummy conding (o padrão R) e a codificação de efeitos.

Ouvi dizer que a codificação de efeitos (às vezes chamada de codificação de desvio ou contraste) é preferida quando você tem interações, mas quais são os possíveis contrastes e quando você usa qual tipo de contraste?

O contexto é modelagem mista em R usando lme4, mas acho que respostas mais amplas são boas. Desculpe, se eu perdi uma pergunta semelhante.

EDIT: Dois links úteis são: codificação de efeitos e codificação dummy explicada.

Henrik
fonte
se você tem Estatística Aplicada moderno com S-Plus, que tem uma grande seção no Capítulo Seis sobre essa mesma questão
richiemorrisroe
4
Não acho que você encontrará uma resposta completa para sua pergunta, mas há muitas informações boas sobre diferentes tipos de codificação aqui .
gung - Restabelece Monica
@gung O site parece realmente interessante. No entanto, parece não abranger a codificação de contraste (ou existe outro nome para ela).
Henrik
Não tenho certeza; Gostaria de saber se há uma falha de comunicação. O título dessa página é "código de contraste".
gung - Restabelece Monica
1
Não entendo bem qual pergunta permanece. Se você deseja uma lista de diferentes tipos de codificação, você tem essa. Qual é o principal impulso da sua pergunta agora?
gung - Restabelece Monica

Respostas:

4

Outros podem me esclarecer se eu estiver errado, mas aqui vai ...

Qual é o efeito do nível comparado à média dos níveis anteriores? ou seja, você está interessado em localizar o limiar do efeito

  • Use os contrastes de Helmert. Penso nisso como comparações cumulativas. Eu usei isso quando estava interessado em determinar um limite de exposição à dose e resposta à droga. A comparação com vários níveis de cada vez significa que menos informações são descartadas. Penso nisso como comparações cumulativas.

Qual é o efeito do nível em relação a um nível de linha de base? ou seja, você está interessado em um grupo de comparação de linha de base.

  • Use codificação variável fictícia (contrastes de tratamento). Penso nisso como comparações de linha de base. Eu usei isso quando há tipicamente um grupo / nível estabelecido como importante por outros estudos, e meu estudo está demonstrando que também existem associações quando esse limite é excedido.

Qual é o efeito de dois níveis adjacentes de uma variável?

  • Use diferenciação para frente / trás. Penso nisso como comparações sucessivas de curto intervalo. Eu usei isso ao comparar efeitos para diferentes níveis de posição socioeconômica, quando cada grupo é composicionalmente diferente por direito próprio e não tem mais interesse do que qualquer outro.
Gavin
fonte