Particionamento de variância e alterações longitudinais na correlação com dados binários

14

Estou analisando dados de 300.000 alunos em 175 escolas com um modelo logístico de efeitos mistos lineares (interceptações aleatórias). Cada aluno ocorre exatamente uma vez e os dados duram 6 anos.

  1. Como particiono a variação entre os níveis da escola e do aluno, de maneira semelhante à VPC / ICC para obter resultados contínuos? Eu vi esse artigo que propõe 4 métodos, dos quais A e B parecem interessantes para mim, mas eu gostaria de saber quais vantagens / desvantagens podem existir no uso de um desses e, é claro, se existem outras maneiras de fazer isso. isto.

  2. Como posso comparar a variação residual no nível da escola de ano para ano (ou qualquer outro período)? Até agora, eu fiz isso dividindo os dados por ano e executando o modelo em cada ano, mas acho que isso é defeituoso porque: i) não há razão óbvia para que eu deva ser dividido por ano ; e ii) como as estimativas de efeitos fixos são diferentes para cada ano, a comparação dos efeitos aleatórios ano a ano pode não fazer sentido (essa é apenas minha intuição; seria ótimo se alguém pudesse explicar isso formalmente, se estiver correto).

NOTA: Reescrevi esta pergunta após uma discussão em meta com whuber e Macro

Joe King
fonte
3
Eu acho que isso é uma grande melhoria. A questão agora é muito clara. No momento, não tenho tempo para dar uma resposta bem organizada, mas postarei uma resposta mais tarde.
macro
3
Modelos logísticos de efeitos mistos parecem um tópico extremamente avançado para o ensino médio. Eles fazem parte do seu currículo do ensino médio ou você estuda de forma independente?
mark999
4
@ mark999 Estou estudando de forma independente. Na verdade, estou tentando provar que meu irmão estava errado e disse "não há como você entender isso" . Ele está se formando em estatística, então eu tenho acesso a todos os seus livros, etc. (quando ele está sendo legal).
Joe King

Respostas:

15

Seja denotem a resposta e o vetor preditor (respectivamente) do aluno i na escola j .yij,xijij

(1) Para dados binários, acho que a maneira padrão de fazer decomposições de variância análogas às feitas para dados contínuos é o que os autores chamam de Método D (comentarei sobre os outros métodos abaixo) em seu link - visualizando os dados binários como resultante de uma variável contínua subjacente que é governada por um modelo linear e decompõe a variação nessa escala latente. A razão é que os modelos logísticos (e outros GLMs) surgem naturalmente dessa maneira--

Para ver esta, definir de tal modo que é regulada por um modelo misto linear:yij

yij=α+xijβ+ηj+εij

onde são coeficientes de regressão, η jN ( 0 , σ 2 ) é o efeito aleatório no nível da escola e ε i j é o termo de variação residual e tem uma distribuição logística padrão . Agora deixeα,βηjN(0,σ2)εij

yEuj={1E se   yEuj0 00 0E se   yEuj<0 0

deixe agora, simplesmente usando o CDF logístico que temospEuj=P(yEuj=1|xEuj,ηj)

pEuj=1-P(yEuj<0 0|xEuj,ηj)=exp{-(α+xEujβ+ηj)}1+exp{-(α+xEujβ+ηj)}

agora, transformando o logit de ambos os lados, você tem

registro(pEuj1-pEuj)=α+xEujβ+ηj

que é exatamente o modelo logístico de efeitos mistos. Portanto, o modelo logístico é equivalente ao modelo de variável latente especificado acima. Uma observação importante:

  • A escala de não é identificada, pois, se você a reduzisse, mas fosse constante s , isso mudaria simplesmente o acima paraεEujs

exp{-(α+xEujβ+ηj)/s}1+exp{-(α+xEujβ+ηj)/s}

       portanto, os coeficientes e efeitos aleatórios seriam simplesmente aumentados pela quantidade correspondente. Assim, s = 1 é utilizado, o que implica v um r ( ε i J ) = π 2 / 3 .
      s=1vumar(εEuj)=π2/3

Agora, se você usar esse modelo e depois a quantidade

σ^η2σ^η2+π2/3

estima a correlação intraclasse das variáveis ​​latentes subjacentes . Outra nota importante:

  • εEuj
    σ^η2σ^η2+1

Em relação aos outros métodos mencionados no documento que você vinculou:

  • xEuj

  • (B) O método de simulação é intuitivamente atraente para um estatístico, pois forneceria uma decomposição de variação estimada na escala original dos dados, mas, dependendo da audiência, pode (i) ser complicado descrever isso nos seus "métodos" (ii) pode desativar um revisor que estava procurando algo "mais padrão"

  • (C) Fingir que os dados são contínuos provavelmente não é uma boa idéia, embora não tenha um desempenho terrível se a maioria das probabilidades não for muito próxima de 0 ou 1. Mas, fazer isso certamente levaria uma bandeira vermelha a um revisor então eu ficaria longe.

Agora finalmente

(2) Se os efeitos fixos são muito diferentes ao longo dos anos, você tem razão em pensar que pode ser difícil comparar as variações aleatórias de efeitos ao longo dos anos, pois elas estão potencialmente em escalas diferentes (isso está relacionado à não identificabilidade do problema de dimensionamento mencionado acima).

Se você deseja manter os efeitos fixos ao longo do tempo (no entanto, se os vir mudando muito ao longo do tempo, talvez não queira fazer isso), mas observe a alteração na variação de efeito aleatório, você poderá explorar esse efeito usando algumas opções aleatórias. inclinações e variáveis ​​fictícias. Por exemplo, se você quiser ver se os ICCs são diferentes em anos diferentes, você pode deixarEuk=1k

α+xEujβ+η1jEu1+η2jEu2+η3jEu3+η4jEu4+η5jEu5+η6jEu6

isso fornecerá ICCs diferentes a cada ano, mas os mesmos efeitos fixos. Pode ser tentador usar apenas uma inclinação aleatória no tempo, tornando seu preditor linear

α+xEujβ+η1+η2t

mas não recomendo isso, pois isso permitirá que suas associações aumentem com o tempo, e não diminuam .

Macro
fonte
Por favor, me dê seu comentário para abordar o ponto no artigo vinculado sobre esta técnica de particionamento de variação que diz "Essa abordagem pode ser razoável quando a resposta (0, 1) é, por exemplo, derivada de um truncamento de um continuum subjacente, como uma resposta de aprovação / reprovação com base em uma escala de classificação contínua, mas parece ter menos justificativa quando a resposta é realmente discreta, como mortalidade ou votação " . No meu caso eu estou lidando com a incidência de bullying, que cai na última categoria, eu acho ...
Joe King
@JoeKing, eu diria que os modelos de regressão logística / probit (e similares) já assumem que os dados são gerados a partir de um continuum subjacente, uma vez que o modelo pode ser equivalente a isso. Portanto, se alguém está mesmo usando esses modelos, então eles devem encontrar essa suposição para ser :) defensável
Macro
1
@JoeKing, se você considera esta resposta definitiva, considere aceitar :)
Macro
Eu vou mesmo. No momento, estou um pouco incerto sobre alguns pontos e gostaria de voltar para você depois de um tempo (alguns dias) para ler um pouco e analisar os dados um pouco mais, se você não se importa?
9788 Joe
@JoeKing É claro - alguns novos membros desconhecem, então eu pensei em apontar isso - não era para colocar pressão em você
Macro