Presume-se que os efeitos de grupo em um modelo de efeitos mistos tenham sido selecionados a partir de uma distribuição normal?

Digamos que estamos interessados em como as notas dos exames dos alunos são afetadas pelo número de horas que esses alunos estudam. Amostra de alunos de várias escolas diferentes. o seguinte modelo de efeitos mistos:

{exam.grades}_{Eu} = uma + β_{1} \times {hours.studied}_{Eu} + {escola}_{j} + e_{Eu}

$\text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i$

Estou certo ao dizer que, nesse modelo, presume-se que cada escola tenha sido escolhida de uma população maior de escolas e que o efeito da escola é normalmente distribuído? Portanto, podemos executar todos os procedimentos normais do tipo de distribuição 'usuais' para o efeito de grupo da escola? Podemos dizer que 68% das escolas estarão dentro de um desvio padrão do efeito grupal médio da escola? E podemos calcular um intervalo de confiança de 95% para o efeito médio geral da escola?

Também estou certo ao dizer que a regressão linear com efeito fixo da escola não pode calcular essas estatísticas de distribuição normal porque elas usam um grupo de referência e variáveis fictícias?

regression normal-distribution confidence-interval mixed-model variance luciano
fonte

Você está correto ao dizer que, nos modelos lineares padrão de efeitos mistos, presume - se que os efeitos aleatórios sejam normalmente distribuídos. Assim, se essa suposição for válida (pelo menos aproximadamente), podemos usar o que sabemos sobre distribuições normais para ajudar a descrever a distribuição dos efeitos aleatórios, como 95% dos efeitos aleatórios devem estar dentro de dois desvios padrão de 0 (uma vez que aleatórios efeitos são centralizados em torno de 0).

Dito isto, é importante verificar essas suposições, e nem sempre é tão fácil! Se você tiver uma boa quantidade de dados sobre cada cluster, poderá fazer algo como uma análise estratificada e plotar os intervalos de confiança para cada cluster. Isso ainda pode ser um pouco difícil; suponha que você tenha um extremo extremos, ou seja, um intervalo de confiança apertado a vários desvios-padrão de zero. Isso ocorre porque esse efeito aleatório é realmente enorme e estamos certos disso? Ou é porque não temos muitos dados sobre esse efeito aleatório e subestimamos a variação devido ao pequeno tamanho da amostra?

Quanto à diferença entre os modelos de regressão linear simples e efeitos mistos, a resposta é que o modelo de efeitos mistos é consideravelmente mais complicado. Presume-se que os efeitos aleatórios tenham sido gerados a partir da mesma distribuição (normalmente normal). Como tal, a estimativa de um efeito aleatório é na verdade puxada para 0 (lembre-se de que os efeitos aleatórios são centralizados em 0) comparados se você tivesse acabado de ajustar um modelo de regressão linear simples com todos os efeitos fixos.

Além disso, outra diferença é que os efeitos aleatórios são fixados com média 0, permitindo total identificabilidade do modelo: se você tentasse ajustar o efeito principal E todos os efeitos aleatórios em um modelo linear simples, seu modelo não seria identificável. Isso ocorre porque adicionar 1 ao efeito principal e subtrair 1 dos efeitos "aleatórios" (aspas usadas porque você os ajustaria como efeitos fixos) levaria exatamente aos mesmos valores previstos. Porém, essa questão não é tão importante: seria possível excluir facilmente o efeito principal do modelo e, se estivéssemos interessados em examinar o efeito principal, obteríamos a média de todos os efeitos "aleatórios". No entanto, como observado acima, os efeitos "aleatórios" estimados seriam muito mais ruidosos do que se tivessem sido ajustados por um modelo de efeitos mistos: nas informações desse cluster, em vez de também emprestar as informações fornecidas sobre a distribuição dos efeitos do cluster.

Cliff AB
fonte

Presume-se que os efeitos de grupo em um modelo de efeitos mistos tenham sido selecionados a partir de uma distribuição normal?

Respostas: