Por que os modelos de efeitos mistos resolvem a dependência?

14

Digamos que estamos interessados ​​em como as notas dos exames dos alunos são afetadas pelo número de horas que esses alunos estudam. Para explorar essa relação, poderíamos executar a seguinte regressão linear:

exam.gradesEu=uma+β1×hours.studiedEu+eEu

Mas se amostrarmos alunos de várias escolas diferentes, podemos esperar que os alunos da mesma escola sejam mais parecidos entre si do que os alunos de escolas diferentes. Para lidar com esse problema de dependência, o conselho em muitos livros didáticos / na web é executar efeitos mistos e entrar na escola como um efeito aleatório. Portanto, o modelo se tornaria:

exam.gradesEu=uma+β1×hours.studiedEu+escolaj+eEu
Mas por que isso resolve o problema de dependência que estava presente na regressão linear?

Responda como se estivesse conversando com uma criança de 12 anos

luciano
fonte
Se "resolve" o problema da dependência é específico do contexto. Mas você provavelmente pode ver que agora o modelo estendido tem um termo que pode, pelo menos parcialmente, explicar um efeito relacionado a uma escola específica.
image_doctor

Respostas:

23

A inclusão de termos aleatórios no modelo é uma maneira de induzir alguma estrutura de covariância entre as notas. O fator aleatório para a escola induz uma covariância diferente de zero entre diferentes alunos da mesma escola, enquanto é quando a escola é diferente.0 0

Vamos escrever seu modelo como onde s indexa a escola e i indexa os alunos (em cada escola). Os termos escola s são variáveis ​​aleatórias independentes desenhadas em um N ( 0 , τ ) . Os e s , i são variáveis ​​aleatórias independentes desenhadas em um N ( 0 , 2

Ys,Eu=α+horass,Euβ+escolas+es,Eu
sEuescolasN(0 0,τ)es,EuN(0 0,σ2) .

Esse vetor tem valor esperado

[α+horass,Euβ]s,Eu
que é determinado pelo número de horas trabalhadas.

A covariância entre e Y s ' , i ' é 0 quando s s 'Ys,EuYs,Eu0 0ss , o que significa que a partida das notas dos valores esperados são independentes quando os alunos não estão na mesma escola.

A covariância entre e Y s , i ' é τYs,EuYs,Euτ quando e a variação de Y s , i é τ + σ 2 : as séries de alunos da mesma escola terão saídas correlacionadas dos valores esperados .EuEuYs,Euτ+σ2

Exemplo e dados simulados

Aqui está uma breve simulação de R para cinquenta alunos de cinco escolas (aqui eu tiro ); os nomes da variável são auto-documentados: σ2=τ=1

set.seed(1)
school        <- rep(1:5, each=10)
school_effect <- rnorm(5)

school_effect_by_ind <- rep(school_effect, each=10)
individual_effect    <- rnorm(50)

Traçamos as saídas da série esperada para cada aluno, ou seja, os termos , juntamente com (linha pontilhada) a saída média para cada escola:escolas+es,Eu

plot(individual_effect + school_effect_by_ind, col=school, pch=19, 
     xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)

modelo misto

Agora vamos comentar sobre esse enredo. O nível de cada linha a tracejado (correspondente a ) é desenhada de forma aleatória em uma lei normal. Os termos aleatórios específicos do aluno também são sorteados aleatoriamente em uma lei normal, eles correspondem à distância dos pontos da linha pontilhada. O valor resultante é, para cada aluno, a partida de α + horas βescolasα+horasβ , a nota determinada pelo tempo gasto no trabalho. Como resultado, os alunos da mesma escola são mais parecidos que os de escolas diferentes, como você afirmou na sua pergunta.

A matriz de variação para este exemplo

escolases,Eu

[UMA0 00 00 00 00 0UMA0 00 00 00 00 0UMA0 00 00 00 00 0UMA0 00 00 00 00 0UMA]
10×10UMA
UMA=[2111111111121111111111211111111112111111111121111111111211111111112111111111121111111111211111111112].
Elvis
fonte
1
Elvis: provavelmente é uma ótima resposta para pessoas mais versadas em estatística do que eu. No entanto, posso extrair pouco significado disso. Você poderia editar sua resposta de uma maneira que uma criança de 12 anos possa entender?
Luciano
1
A ... 12 anos ?! Uau! Vou adicionar algumas simulações, se isso puder ajudar.
Elvis
5
Feito. Espero que isto ajude. Caso contrário, seja mais específico sobre o que você não recebe. Observe que os 12 anos também não entenderiam a pergunta ... você não pode pedir uma resposta mais simples que a pergunta.
Elvis