Modelos de efeitos mistos lineares são modelos de extensões de regressão linear para dados coletados e resumidos em grupos. As principais vantagens são que os coeficientes podem variar em relação a uma ou mais variáveis de grupo.
No entanto, estou lutando com quando usar o modelo de efeito misto? Elaborarei minhas perguntas usando um exemplo de brinquedo com casos extremos.
Vamos supor que queremos modelar altura e peso para animais e usamos espécies como variáveis de agrupamento.
Se diferentes grupos / espécies são realmente diferentes. Diga um cachorro e elefante. Eu acho que não faz sentido usar o modelo de efeito misto, devemos construir um modelo para cada grupo.
Se diferentes grupos / espécies são realmente semelhantes. Diga uma cadela e um cachorro. Acho que podemos querer usar o gênero como uma variável categórica no modelo.
Então, suponho que devemos usar o modelo de efeito misto nos casos intermediários? Digamos que o grupo seja gato, cachorro, coelho, eles são animais de tamanho semelhante, mas diferentes.
Existe algum argumento formal para sugerir quando usar o modelo de efeito misto, ou seja, como desenhar linhas entre
- Construindo modelos para cada grupo
- Modelo de efeito misto
- Usar grupo como uma variável categórica na regressão
Minha tentativa: o método 1 é o "modelo mais complexo" / menos grau de liberdade e o método 3 é o "modelo mais simples" / mais grau de liberdade. E modelo de efeito misto está no meio. Podemos considerar a quantidade de dados e a complexidade dos dados necessários para selecionar o modelo certo de acordo com o Bais Variance Trade Off.
fonte
activity ~ condition + species + condition*species
- isso usaspecies
como variável categórica, mas é totalmente equivalente a uma regressão separadaactivity ~ condition
para cada espécie separadamente.Respostas:
Receio ter a resposta sutil e talvez insatisfatória de que é uma escolha subjetiva do pesquisador ou analista de dados. Como mencionado em outra parte deste segmento, não basta dizer que os dados têm uma "estrutura aninhada". Para ser justo, porém, é assim que muitos livros descrevem quando usar modelos multiníveis. Por exemplo, acabei de puxar o livro Multinevel Analysis de Joop Hox da minha estante, o que fornece esta definição:
Mesmo em um bom livro, a definição inicial parece circular. Eu acho que isso se deve parcialmente à subjetividade de determinar quando usar que tipo de modelo (incluindo um modelo multinível).
Outro livro, West, Welch e Lineck Mixed Models de Galecki, diz que esses modelos são para:
Finch, Bolin e Kelley Multilevel Modeling in R também falam sobre violar a suposição iid e resíduos correlatos:
Acredito que um modelo multinível faz sentido quando há motivos para acreditar que as observações não são necessariamente independentes uma da outra. Qualquer que seja o "cluster" responsável por essa não independência pode ser modelado.
Um exemplo óbvio seriam as crianças nas salas de aula - todas elas estão interagindo umas com as outras, o que pode levar a que os resultados dos testes não sejam independentes. E se uma sala de aula tiver alguém que faça uma pergunta que faça com que o material seja coberto nessa classe que não seja coberto em outras classes? E se o professor estiver mais acordado para algumas aulas do que para outras? Nesse caso, haveria alguma não independência de dados; em palavras multinível, poderíamos esperar que alguma variação na variável dependente se devesse ao cluster (ou seja, classe).
Seu exemplo de um cão versus um elefante depende das variáveis de interesse independentes e dependentes, eu acho. Por exemplo, digamos que estamos perguntando se existe um efeito da cafeína no nível da atividade. Animais de todo o zoológico são designados aleatoriamente para obter uma bebida com cafeína ou uma bebida de controle.
Se somos um pesquisador interessado em cafeína, podemos especificar um modelo multinível, porque realmente nos preocupamos com o efeito da cafeína. Este modelo seria especificado como:
Isso é particularmente útil se houver um grande número de espécies sobre as quais estamos testando essa hipótese. No entanto, um pesquisador pode estar interessado nos efeitos específicos da espécie da cafeína. Nesse caso, eles poderiam especificar espécies como um efeito fixo:
Obviamente, isso é um problema se houver, digamos, 30 espécies, criando um design 2 x 30 pesado. No entanto, você pode ser bastante criativo com a forma como modelamos esses relacionamentos.
Por exemplo, alguns pesquisadores estão defendendo um uso ainda mais amplo da modelagem multinível. Gelman, Hill e Yajima (2012) argumentam que a modelagem multinível poderia ser usada como uma correção para múltiplas comparações - mesmo em pesquisas experimentais em que a estrutura dos dados não é obviamente de natureza hierárquica:
Os problemas podem ser modelados de várias maneiras e, em casos ambíguos, várias abordagens podem parecer atraentes. Penso que o nosso trabalho é escolher uma abordagem razoável e informada e fazê-lo de forma transparente.
fonte
É claro que você poderia criar um modelo para cada grupo diferente, não há nada de errado nisso. No entanto, você precisará de um tamanho de amostra maior e precisará gerenciar vários modelos.
Ao usar o modelo misto, você agrupa (e compartilha) os dados e, portanto, exige um tamanho de amostra menor.
Ao fazer isso, estamos compartilhando força estatística. A idéia aqui é que algo que podemos inferir bem em um grupo de dados pode nos ajudar com algo que não podemos inferir bem em outro.
Modelos mistos também impedem que grupos com sobre-amostra dominem injustamente.
O que quero dizer é que, se você deseja modelar a estrutura hierárquica latern subjacente, deve adicionar efeitos aleatórios ao seu modelo. Caso contrário, se você não se importa com a interpretação do seu modelo, não o usa.
fornece discussão relevante. O autor discutiu por que ele não queria executar modelos de regressão separados.
fonte
Nos modelos de efeitos mistos, você adiciona termos aleatórios (erro) ao seu modelo, para "misturar" efeitos fixos e aleatórios. Portanto, outra abordagem a considerar quando usar modelos de efeitos mistos pode ser examinar o que é um "efeito aleatório". Assim, além das respostas fornecidas anteriormente, também encontro a distinção entre os termos efeitos "fixos" e "aleatórios" de Bates (2010) instrutivo, seção 1.1 (esp. Página 2).
Essa definição geralmente se aplica a alguma estrutura hierárquica, como países ou salas de aula, porque você sempre tem uma amostra "aleatória" de países ou salas de aula - os dados não foram coletados de todos os países ou salas de aula possíveis.
O sexo, no entanto, é fixo (ou pelo menos tratado como sendo fixo). Se você tem homens ou mulheres, não há outros níveis de sexo (pode haver algumas exceções de gênero, mas isso é ignorado).
Ou diga o nível educacional: se você perguntar se as pessoas são de nível inferior, médio ou superior, não há níveis restantes; portanto, você não coletou uma amostra "aleatória" de todos os níveis educacionais possíveis (portanto, esse é um efeito fixo).
fonte
Você usa modelos mistos quando algumas suposições razoáveis podem ser feitas, com base no design do estudo, sobre a natureza da correlação entre observações e inferência desejada em nível individual ou condicional. efeitos . Modelos mistos permitem especificações de efeitos aleatórios, que são uma representação conveniente de estruturas de correlação que surgem naturalmente na coleta de dados.
O tipo mais comum de modelo misto é um modelo de interceptações aleatórias que estima uma distribuição latente de constantes comuns com uma distribuição normal de variância finita e média de 0 em grupos de indivíduos identificados no conjunto de dados. Essa abordagem é responsável por centenas de fatores de confusão comuns a grupos de observações ou clusters, mas variando entre os clusters.
Um segundo tipo comum de modelo misto é um modelo de declives aleatórios que, semelhante ao modelo de interceptações aleatórias, estima uma distribuição latente de interações preditivas de tempo, que vem novamente de uma distribuição normal de variância finita de média média em um estudo de painel ou agrupamentos das observações medidas prospectivamente ou longitudinalmente.
O nível individual ou os efeitos condicionais podem ser contrastados com o nível da população ou os efeitos marginais. Os efeitos marginais representam o efeito em uma população de uma intervenção ou triagem. Como exemplo, uma intervenção para aumentar a adesão à reabilitação de abuso de substâncias pode considerar o atendimento por mais de três meses em um painel de pacientes internados por várias condições. A duração do uso pode variar entre os pacientes e prever fortemente a conformidade com o workshop, pois os participantes que usam mais tempo têm maiores tendências e evitações viciantes. Uma análise em nível individual pode revelar que o estudo é eficaz, apesar de participantes com dependência maior não comparecerem antes de receber a intervenção e continuarem a não comparecer após receberem a intervenção.
Os efeitos marginais têm inferência menos precisa devido a ignorar a homogeneidade entre os clusters no tempo ou no espaço. Eles podem ser estimados com equações de estimativa generalizadas ou marginalizando os modelos mistos.
fonte
Efeitos mistos devem ser usados quando os dados tiverem uma estrutura aninhada ou hierárquica. Na verdade, isso viola a suposição de independência das medidas, porque todas as medidas no mesmo grupo / nível estão correlacionadas. No caso de
o gênero seria fator variável e efeito fixo, enquanto a variabilidade do tamanho dos cães dentro do gênero é um efeito aleatório. Meu modelo seria
Intuitivamente, coelhos, cães e gatos devem ser modelados separadamente, pois os tamanhos de cães e gatos não são correlacionados, no entanto, o tamanho de dois cães é um tipo de variabilidade "dentro das espécies".
fonte