Estou analisando dados de 300.000 alunos em 175 escolas com um modelo logístico de efeitos mistos lineares (interceptações aleatórias). Cada aluno ocorre exatamente uma vez e os dados duram 6 anos.
Como particiono a variação entre os níveis da escola e do aluno, de maneira semelhante à VPC / ICC para obter resultados contínuos? Eu vi esse artigo que propõe 4 métodos, dos quais A e B parecem interessantes para mim, mas eu gostaria de saber quais vantagens / desvantagens podem existir no uso de um desses e, é claro, se existem outras maneiras de fazer isso. isto.
Como posso comparar a variação residual no nível da escola de ano para ano (ou qualquer outro período)? Até agora, eu fiz isso dividindo os dados por ano e executando o modelo em cada ano, mas acho que isso é defeituoso porque: i) não há razão óbvia para que eu deva ser dividido por ano ; e ii) como as estimativas de efeitos fixos são diferentes para cada ano, a comparação dos efeitos aleatórios ano a ano pode não fazer sentido (essa é apenas minha intuição; seria ótimo se alguém pudesse explicar isso formalmente, se estiver correto).
NOTA: Reescrevi esta pergunta após uma discussão em meta com whuber e Macro
fonte
Respostas:
Seja denotem a resposta e o vetor preditor (respectivamente) do aluno i na escola j .yij,xij i j
(1) Para dados binários, acho que a maneira padrão de fazer decomposições de variância análogas às feitas para dados contínuos é o que os autores chamam de Método D (comentarei sobre os outros métodos abaixo) em seu link - visualizando os dados binários como resultante de uma variável contínua subjacente que é governada por um modelo linear e decompõe a variação nessa escala latente. A razão é que os modelos logísticos (e outros GLMs) surgem naturalmente dessa maneira--
Para ver esta, definir de tal modo que é regulada por um modelo misto linear:y⋆ij
onde são coeficientes de regressão, η j ∼ N ( 0 , σ 2 ) é o efeito aleatório no nível da escola e ε i j é o termo de variação residual e tem uma distribuição logística padrão . Agora deixeα,β ηj∼N(0,σ2) εij
deixe agora, simplesmente usando o CDF logístico que temospeu j= P( yeu j= 1 | xeu j, ηj)
agora, transformando o logit de ambos os lados, você tem
que é exatamente o modelo logístico de efeitos mistos. Portanto, o modelo logístico é equivalente ao modelo de variável latente especificado acima. Uma observação importante:
Agora, se você usar esse modelo e depois a quantidade
estima a correlação intraclasse das variáveis latentes subjacentes . Outra nota importante:
Em relação aos outros métodos mencionados no documento que você vinculou:
(B) O método de simulação é intuitivamente atraente para um estatístico, pois forneceria uma decomposição de variação estimada na escala original dos dados, mas, dependendo da audiência, pode (i) ser complicado descrever isso nos seus "métodos" (ii) pode desativar um revisor que estava procurando algo "mais padrão"
(C) Fingir que os dados são contínuos provavelmente não é uma boa idéia, embora não tenha um desempenho terrível se a maioria das probabilidades não for muito próxima de 0 ou 1. Mas, fazer isso certamente levaria uma bandeira vermelha a um revisor então eu ficaria longe.
Agora finalmente
(2) Se os efeitos fixos são muito diferentes ao longo dos anos, você tem razão em pensar que pode ser difícil comparar as variações aleatórias de efeitos ao longo dos anos, pois elas estão potencialmente em escalas diferentes (isso está relacionado à não identificabilidade do problema de dimensionamento mencionado acima).
Se você deseja manter os efeitos fixos ao longo do tempo (no entanto, se os vir mudando muito ao longo do tempo, talvez não queira fazer isso), mas observe a alteração na variação de efeito aleatório, você poderá explorar esse efeito usando algumas opções aleatórias. inclinações e variáveis fictícias. Por exemplo, se você quiser ver se os ICCs são diferentes em anos diferentes, você pode deixarEuk= 1 k
isso fornecerá ICCs diferentes a cada ano, mas os mesmos efeitos fixos. Pode ser tentador usar apenas uma inclinação aleatória no tempo, tornando seu preditor linear
mas não recomendo isso, pois isso permitirá que suas associações aumentem com o tempo, e não diminuam .
fonte