Parcializar ou regredir uma variável categórica?

9

Ocasionalmente, vejo na literatura que uma variável categórica, como sexo, é "parcializada" ou "regredida" na análise de regressão (efeitos fixos ou efeitos mistos). Estou preocupado com os seguintes problemas práticos envolvidos nessa declaração:

(1) Geralmente, o método de codificação não é mencionado no artigo. Essa variável deve ser codificada com valores quantitativos, e acho que a maneira sensata deve ser a codificação de efeitos (por exemplo, masculino = 1, feminina = -1), para que a parcialidade possa ser alcançada com outros efeitos interpretados na grande média de ambos os sexos grupos. Uma codificação diferente pode render uma interpretação diferente (e indesejada). Por exemplo, a codificação fictícia (por exemplo, macho = 0, fêmea = 1) deixaria outros efeitos associados aos machos, e não a média geral. Mesmo centralizar essa variável com código fictício pode não funcionar bem para seu objetivo parcial, se houver um número desigual de sujeitos nos dois grupos. Estou correcto?

(2) Se o efeito de uma variável categórica for incluído no modelo, o exame de seus efeitos primeiro parece necessário e deve ser discutido no contexto devido às suas consequências na interpretação de outros efeitos. O que me preocupa é que, às vezes, os autores nem mencionam a importância do efeito sexual, sem falar em qualquer processo de construção de modelo. Se o efeito sexual existe, uma pergunta natural de acompanhamento é se existem interações entre sexo e outras variáveis ​​no modelo? Se nenhum efeito sexual e nenhuma interação existir, o sexo deve ser removido do modelo.

(3) Se o sexo não é considerado interessante para esses autores, qual é o sentido de incluí-lo no modelo em primeiro lugar sem verificar seus efeitos? A inclusão de uma variável tão categórica (e custando um grau de liberdade no efeito fixo do sexo) ganha alguma coisa para seu objetivo parcial quando o efeito sexual existe (minha experiência limitada diz essencialmente não)?

pólo azul
fonte
O que posso dizer, todos os seus pontos são válidos, portanto é possível que os autores dos artigos em questão estejam fazendo a coisa errada. Sem mais contexto, é impossível dizer algo concreto.
mpiktas 23/12/10

Respostas:

4

Eu não acho que (1) faça alguma diferença. A idéia é separar a resposta e os outros preditores dos efeitos do sexo. Não importa se você codifica 0, 1 (contraste de tratamento) ou 1, -1 (contraste de soma a zero), pois os modelos representam a mesma "quantidade" de informações que são removidas. Aqui está um exemplo em R:

set.seed(1)
dat <- data.frame(Size = c(rnorm(20, 180, sd = 5), 
                           rnorm(20, 170, sd = 5)),
                  Sex = gl(2,20,labels = c("Male","Female")))

options(contrasts = c("contr.treatment", "contr.poly"))
r1 <- resid(m1 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.sum", "contr.poly"))
r2 <- resid(m2 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.treatment", "contr.poly"))

A partir desses dois modelos, os resíduos são os mesmos e são essas informações que um levaria para o modelo subsequente (mais a mesma coisa que remove o efeito Sexo das outras covariáveis):

> all.equal(r1, r2)
[1] TRUE

Por acaso, concordo com (2), mas com (3) se o sexo não interessa aos pesquisadores, eles ainda podem querer controlar os efeitos do sexo; portanto, meu modelo nulo seria aquele que inclui sexo e eu testo alternativas com covariáveis ​​adicionais. mais sexo. Seu ponto de vista sobre interações e testes para efeitos de variáveis ​​não interessantes é uma observação importante e válida.

Gavin Simpson
fonte
2

É verdade que a escolha do método de codificação influencia a maneira como você interpreta os coeficientes do modelo. Porém, na minha experiência (e eu sei que isso pode depender do seu campo), a codificação fictícia é tão predominante que as pessoas não têm um grande problema em lidar com isso.

Neste exemplo, se homem = 0 e mulher = 1, a interceptação é basicamente a resposta média para homens, e o coeficiente de sexo é o impacto na resposta por ser mulher (o "efeito feminino"). As coisas ficam mais complicadas quando você lida com variáveis ​​categóricas com mais de dois níveis, mas o esquema de interpretação se estende de maneira natural.

O que isso significa em última análise é que você deve tomar cuidado para que quaisquer conclusões substantivas tiradas da análise não dependam do método de codificação usado.

Hong Ooi
fonte
1

Lembre-se de que esse erro será reduzido adicionando fatores adicionais. Mesmo que o gênero seja insignificante em seu modelo, ele ainda pode ser útil no estudo. Qualquer importância pode ser encontrada em qualquer fator se o tamanho da amostra for grande o suficiente. Por outro lado, se o tamanho da amostra não for grande o suficiente, um efeito significativo pode não ser testável. Daí boa construção de modelos e análise de potência.


fonte
1

Parece que não posso adicionar um longo comentário diretamente à resposta do Dr. Simpson. Desculpe, tenho que colocar minha resposta aqui.

Realmente aprecio sua resposta, Dr. Simpson! Eu devo esclarecer meus argumentos um pouco. O que estou tendo problemas com o negócio de parcialistas não é uma questão teórica, mas prática. Suponha que um modelo de regressão linear tenha a seguinte forma

y = a + b * Sexo + outros efeitos fixos + resíduos

Concordo plenamente que, do ponto de vista teórico, independentemente de como quantificamos a variável Sex, teríamos os mesmos resíduos. Mesmo se eu codificar os indivíduos com alguns números loucos como masculino = 10,7 e feminino = 53,65, eu ainda obter os mesmos resíduos como r1e r2no seu exemplo. No entanto, o que importa nesses documentos não é sobre os resíduos. Em vez disso, o foco está na interpretação da interceptação ae de outros efeitos fixos no modelo acima, e isso pode causar problemas ao parcializar. Com esse foco em mente, como o sexo é codificado parece ter uma grande consequência na interpretação de todos os outros efeitos no modelo acima. Com codificação fictícia (options(contrasts = c("contr.treatment", "contr.poly"))em R), todos os outros efeitos, exceto 'b', devem ser interpretados como associados ao grupo sexual com o código "0" (homens). Com a codificação de efeitos ( options(contrasts = c("contr.sum", "contr.poly"))em R), todos os outros efeitos, exceto bos efeitos médios para toda a população, independentemente do sexo.

Usando seu exemplo, o modelo simplifica para

y = a + b * Sexo + resíduos.

O problema pode ser visto claramente com o seguinte sobre a estimativa da interceptação a:

> summary(m1)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 180.9526     0.9979 181.332  < 2e-16 ***

> summary(m2)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 175.4601     0.7056 248.659  < 2e-16 ***

Finalmente, parece que tenho que concordar que meu argumento original (3) pode não ser válido. Continuando seu exemplo,

> options(contrasts = c("contr.sum", "contr.poly"))
> m0 <- lm(Size ~ 1, data = dat)
> summary(m0)

Call: lm(formula = Size ~ 1, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  175.460      1.122   156.4   <2e-16 ***

Parece que incluir o sexo no modelo não altera a estimativa do efeito, mas aumenta o poder estatístico, uma vez que mais variabilidade nos dados é explicada pelo efeito do sexo. Minha ilusão anterior no argumento (3) pode ter vindo de um conjunto de dados com um enorme tamanho de amostra no qual a adição de Sex no modelo não mudou muito na importância de outros efeitos.

No entanto, na análise convencional do tipo ANOVA balanceada, um fator interindividual, como Sexo, não tem conseqüências sobre os efeitos não relacionados ao fator, devido ao particionamento ortogonal das variações.

pólo azul
fonte
2
Talvez tenhamos opiniões diferentes sobre a parcialização? Em minha mente, envolveria i) e1 <- resid (lm (y ~ Sex)), ii) e2 <- resid (lm (X ~ Sex)) e, finalmente, iii) lm (e1 ~ e2). i) residualiza y em relação ao sexo, ii) residualiza as demais covariáveis ​​(X) em relação ao sexo, iii) ajusta-se à regressão parcial. Nesse caso, não importa como se codifica o sexo. No exposto, não estamos realmente interessados ​​no efeito do sexo nem na interpretação dos coeficientes. Se estamos construindo um modelo, ou seja, controlando o sexo como um nulo , no entanto , como parametrizamos o modelo é uma consideração importante.
Gavin Simpson