Digamos que estamos interessados em como as notas dos exames dos alunos são afetadas pelo número de horas que esses alunos estudam. Para explorar essa relação, poderíamos executar a seguinte regressão linear:
Mas se amostrarmos alunos de várias escolas diferentes, podemos esperar que os alunos da mesma escola sejam mais parecidos entre si do que os alunos de escolas diferentes. Para lidar com esse problema de dependência, o conselho em muitos livros didáticos / na web é executar efeitos mistos e entrar na escola como um efeito aleatório. Portanto, o modelo se tornaria:
Mas por que isso resolve o problema de dependência que estava presente na regressão linear?
Responda como se estivesse conversando com uma criança de 12 anos
Respostas:
A inclusão de termos aleatórios no modelo é uma maneira de induzir alguma estrutura de covariância entre as notas. O fator aleatório para a escola induz uma covariância diferente de zero entre diferentes alunos da mesma escola, enquanto é quando a escola é diferente.0 0
Vamos escrever seu modelo como onde s indexa a escola e i indexa os alunos (em cada escola). Os termos escola s são variáveis aleatórias independentes desenhadas em um N ( 0 , τ ) . Os e s , i são variáveis aleatórias independentes desenhadas em um N ( 0 , 2
Esse vetor tem valor esperado
A covariância entre e Y s ' , i ' é 0 quando s ≠ s 'Ys , i Ys′, i′ 0 0 s ≠ s′ , o que significa que a partida das notas dos valores esperados são independentes quando os alunos não estão na mesma escola.
A covariância entre e Y s , i ' é τYs , i Ys , i′ τ quando e a variação de Y s , i é τ + σ 2 : as séries de alunos da mesma escola terão saídas correlacionadas dos valores esperados .i ≠ i′ Ys , i τ+ σ2
Exemplo e dados simulados
Aqui está uma breve simulação de R para cinquenta alunos de cinco escolas (aqui eu tiro ); os nomes da variável são auto-documentados:σ2= τ= 1
Traçamos as saídas da série esperada para cada aluno, ou seja, os termos , juntamente com (linha pontilhada) a saída média para cada escola:escolas+ es , i
Agora vamos comentar sobre esse enredo. O nível de cada linha a tracejado (correspondente a ) é desenhada de forma aleatória em uma lei normal. Os termos aleatórios específicos do aluno também são sorteados aleatoriamente em uma lei normal, eles correspondem à distância dos pontos da linha pontilhada. O valor resultante é, para cada aluno, a partida de α + horas βescolas α + horas β , a nota determinada pelo tempo gasto no trabalho. Como resultado, os alunos da mesma escola são mais parecidos que os de escolas diferentes, como você afirmou na sua pergunta.
A matriz de variação para este exemplo
fonte