Entendo o conceito de que é a média para quando a variável categórica é igual a 0 (ou é o grupo de referência), dando a interpretação final de que o coeficiente de regressão é a diferença na média das duas categorias. Mesmo com> 2 categorias, eu assumiria que cada explica a diferença entre a média e a referência dessa categoria.
Mas, e se mais variáveis forem trazidas para o modelo multivariável? Agora, o que o intercepto significa, dado que não faz sentido que ele seja o meio para a referência de duas variáveis categóricas? Um exemplo seria se gênero (M (ref) / F) e raça (branco (ref) / preto) estivessem ambos em um modelo. A a média apenas para homens brancos? Como alguém interpreta outras possibilidades?
Como uma observação separada: as declarações de contraste servem como um método para investigar a modificação do efeito? Ou apenas para ver o efeito ( ) em diferentes níveis?
Respostas:
Você está certo sobre a interpretação dos betas quando há uma única variável categórica com níveis . Se houver várias variáveis categóricas (e não houver termo de interação), a interceptação ( ) é a média do grupo que constitui o nível de referência para as duas (todas) variáveis categóricas. Usando seu cenário de exemplo, considere o caso em que não há interação, então os betas são:k β 0β^0
Também podemos pensar nisso em termos de como calcular os vários grupos significa:
x¯W h i t e M um l e s x¯W h i t e F e m um l e s x¯B l a c k M a l e s x¯B l a c k F e m a l e s = β^0 0= β^0 0+ β^F e m a l e= β^0 0+ β^B l a c k= β^0 0+ β^F e m a l e+ β^B l a c k
Se você tivesse um termo de interação, ele seria adicionado no final da equação para mulheres negras. (A interpretação de um termo dessa interação é bastante complicada, mas eu passo aqui: Interpretação do termo de interação .)
Atualização : para esclarecer meus pontos, vamos considerar um exemplo enlatado, codificado
R
.Os meios
y
para essas variáveis categóricas são:Podemos comparar as diferenças entre essas médias e os coeficientes de um modelo ajustado:
O que devemos reconhecer sobre essa situação é que, sem um termo de interação, estamos assumindo linhas paralelas. Assim, o
Estimate
para o(Intercept)
é a média dos homens brancos. OEstimate
forSexFemale
é a diferença entre a média das fêmeas e a média dos machos. OEstimate
forRaceBlack
é a diferença entre a média de negros e a média de brancos. Novamente, como um modelo sem um termo de interação assume que os efeitos são estritamente aditivos (as linhas são estritamente paralelas), a média de mulheres negras é então a média de homens brancos mais a diferença entre a média de mulheres e a média de homens mais a diferença entre a média de negros e a média de brancos.fonte
Na verdade, como você apontou corretamente, no caso de uma única variável categórica (com potencialmente mais de 2 níveis), é realmente a média da referência e os outros são a diferença entre o média desse nível da categoria e média da referência.β^0 β^
Se estendermos um pouco o seu exemplo para incluir um terceiro nível na categoria de corrida (digamos asiática ) e escolhermos Branco como referência, você terá:
Nesse caso, a interpretação de todo o é fácil e é fácil encontrar a média de qualquer nível da categoria. Por exemplo:β^
Infelizmente, no caso de múltiplas variáveis categóricas, a interpretação correta para a interceptação não é mais tão clara (consulte a nota no final). Quando houver n categorias, cada uma com vários níveis e um nível de referência (por exemplo, branco e masculino no seu exemplo), a forma geral da interceptação é:
Os outros são os mesmos de uma única categoria: são a diferença entre a média desse nível da categoria e a média do nível de referência da mesma categoria.β^
Se voltarmos ao seu exemplo, obteríamos:
Você notará que a média das categorias cruzadas (por exemplo, homens brancos ) não está presente em nenhuma das . De fato, você não pode calcular esses meios precisamente a partir dos resultados desse tipo de regressão .β^
A razão para isso é que, o número de variáveis preditoras (ou seja, ) é menor que o número de categorias cruzadas (desde que você tenha mais de uma categoria), portanto, um ajuste perfeito nem sempre é possível. Se voltarmos ao seu exemplo, o número de preditores é 4 (por exemplo, e ) enquanto o número de categorias cruzadas é 6.β^ β^0, β^Black, β^Asian β^Female
Exemplo Numérico
Deixe-me emprestar do @Gung para um exemplo numérico enlatado:
Nesse caso, as várias médias que serão calculadas no são:β^
Podemos comparar estes números com os resultados da regressão:
Como você pode ver, os vários estimados a partir da regressão estão alinhados com as fórmulas fornecidas acima. Por exemplo, é fornecido por: que fornece:β^ β^0
Nota sobre a escolha do contraste
Uma observação final sobre este tópico, todos os resultados discutidos acima referem-se a regressões categóricas usando tratamento de contraste (o tipo padrão de contraste em R). Existem diferentes tipos de contraste que podem ser usados (principalmente Helmert e soma) e isso mudaria a interpretação dos vários . No entanto, não alteraria as previsões finais das regressões (por exemplo, a previsão para homens brancos é sempre a mesma, independentemente do tipo de contraste que você usa).β^
Meu favorito pessoal é a soma do contraste, pois sinto que a interpretação do generaliza melhor quando existem várias categorias. Para esse tipo de contraste, não há nível de referência, ou melhor, a referência é a média de toda a amostra e você tem o seguinte :β^contr.sum β^contr.sum
Se voltarmos ao exemplo anterior, você teria:
Você notará que, como Branco e Masculino não são mais níveis de referência, seus não são mais 0. O fato de serem 0 é específico para o tratamento de contraste.β^contr.sum
fonte