Tenho um problema ao adotar os benefícios de rotular um fator de modelo como aleatório por alguns motivos. Para mim, parece que em quase todos os casos a solução ideal é tratar todos os fatores como fixos.
Primeiro, a distinção entre fixo e aleatório é bastante arbitrária. A explicação padrão é que, se alguém estiver interessado nas unidades experimentais específicas em si, deverá usar efeitos fixos e, se estiver interessado na população representada pelas unidades experimentais, deverá usar efeitos aleatórios. Isso não ajuda muito, pois implica que é possível alternar entre visualizações fixas e aleatórias, mesmo que os dados e o design experimental permaneçam os mesmos. Além disso, essa definição promove uma ilusão de que, se um fator é rotulado como aleatório, a inferência extraída do modelo é de alguma forma mais aplicável à população do que no caso em que o fator é rotulado como fixo. Finalmente, Gelman mostra que a distinção aleatória fixa é confusa mesmo no nível de definição, porque há mais quatro definições sobre o que são efeitos fixos e aleatórios.
Segundo, a estimativa de modelos mistos é bastante complicada. Ao contrário de um modelo "puramente fixo", existem mais do que algumas maneiras de obter os valores p. O professor Bates que implementou a estimativa REML no pacote lme4 em R chegou ao ponto de se recusar a relatar completamente os valores p .
Terceiro, há uma questão obscura de quantos parâmetros implícitos são introduzidos por um fator aleatório. O exemplo a seguir é minha adaptação à de Burnham & Anderson, Seleção de Modelo e Inferência de Vários Modelos: Uma Abordagem Teórico-da Informação . Da perspectiva da troca de viés e variação, o papel dos efeitos aleatórios pode ser ilustrado da seguinte maneira. Considere uma ANOVA unidirecional com tratamentos e efeitos de fator principal K , dos quais K - 1 são estimados. O termo de erro tem distribuição N ( 0 , σ 2 ) . Se o número de observações for fixo, a troca de desvio e desvio se deteriorará à medida que Ksobe. Suponha que digamos que os efeitos principais de são desenhados a partir da distribuição de N ( 0 , σ K ) . O modelo correspondente terá uma complexidade que está em algum lugar entre a versão fixa (com excesso de ajustes) e o modelo com menos equipamentos que contém apenas a interceptação. O número de parâmetros efetivos no modelo fixo é
O número de parâmetros efetivos no modelo aleatório é pelo menos três: . Além disso, o modelo aleatório possui vários parâmetros "ocultos" implícitos na restrição distributiva (normal neste caso) imposta aos principais efeitos.
Em particular, se houver um fator com dois níveis, não faz sentido chamá-lo aleatório, mesmo que tenhamos certeza de que seus níveis foram amostrados aleatoriamente em alguma população. Isso ocorre porque a versão de efeito fixo possui três parâmetros e a versão de efeito aleatório possui mais de três parâmetros. Nesse caso, o modelo aleatório acaba tendo mais complexidade do que a versão fixa. Aparentemente, uma mudança da versão fixa para a aleatória é mais fundamentada para K maior. No entanto, o número de parâmetros "ocultos" no modelo aleatório é desconhecido, portanto, é impossível comparar as versões fixas e aleatórias com base nos critérios de informação como AIC. Portanto, embora este exemplo ilumine a contribuição de efeitos aleatórios (a possibilidade de uma melhor troca de viés e variância), também mostra que é difícil dizer quando é justificável redefinir o fator de fixo para aleatório.
Nenhum dos problemas acima está presente em um modelo "puramente fixo". Portanto, estou disposto a perguntar:
Alguém pode dar um exemplo quando algo muito ruim aconteceu quando um fator aleatório foi usado como se fosse corrigido? Eu acredito que deveria haver alguns estudos de simulação que abordem o problema explicitamente.
Existe um método quantitativo comprovado para decidir quando faz sentido mudar do rótulo fixo para o aleatório?
Respostas:
1. Um famoso exemplo em psicologia e linguística é descrito por Herb Clark (1973; seguindo Coleman, 1964): "A falácia da linguagem como efeito fixo: uma crítica da estatística da linguagem na pesquisa psicológica".
Clark é um psicolinguista que discute experimentos psicológicos nos quais uma amostra de sujeitos da pesquisa responde a um conjunto de materiais de estímulo, geralmente várias palavras extraídas de algum corpus. Ele ressalta que o procedimento estatístico normalmente utilizado nestes casos, com base em medidas repetidas ANOVA, e referido por Clark como , os participantes trata como um fator aleatório, mas (talvez implicitamente) trata os materiais de estímulo (ou "língua") como fixo. Isso leva a problemas na interpretação dos resultados dos testes de hipóteses sobre o fator de condição experimental: naturalmente queremos assumir que um resultado positivo nos diz algo sobre a população da qual extraímos nossa amostra de participantes e também sobre a população teórica da qual extraímos os materiais linguísticos. masF1 1 , tratando os participantes como aleatórios e estímulos como fixos, apenas nos informa sobre o efeito do fator de condição em outros participantes semelhantes que respondemexatamente aos mesmos estímulos. A realização daanálise F 1 , quando os participantes e os estímulos são mais apropriadamente vistos como aleatórios, pode levar a taxas de erro do Tipo 1 que excedem substancialmente onível α nominal- geralmente 0,05 -, dependendo da extensão de fatores como número e variabilidade de estímulos e o desenho do experimento. Nesses casos, a análise mais apropriada, pelo menos sob a estrutura clássica da ANOVA, é usar o que é chamado deestatísticaquase- F com base em razões decombinações lineares deF1 1 F1 1 α F quadrados médios.
O artigo de Clark causou um surto de psicolinguística na época, mas não conseguiu causar grande impacto na literatura psicológica mais ampla. (E mesmo dentro da psicolinguística, o conselho de Clark ficou um pouco distorcido ao longo dos anos, conforme documentado por Raaijmakers, Schrijnemakers e Gremmen, 1999.) em modelos de efeitos mistos, dos quais o modelo misto clássico ANOVA pode ser visto como um caso especial. Alguns desses trabalhos recentes incluem Baayen, Davidson e Bates (2008), Murayama, Sakaki, Yan e Smith (2014) e ( ahem ) Judd, Westfall e Kenny (2012). Tenho certeza que existem alguns que estou esquecendo.
2. Não exatamente. Não são métodos de começar a se um fator é melhor incluído como um efeito aleatório ou não no modelo em tudo (ver, por exemplo, Pinheiro & Bates, 2000, pp 83-87;. No entanto ver Barr, Levy, Scheepers, & Tily, 2013). E, é claro, existem técnicas clássicas de comparação de modelos para determinar se um fator é melhor incluído como um efeito fixo ou não é de todo (isto é,testes ). Mas acho que determinar se um fator é melhor considerado fixo ou aleatório geralmente é melhor deixar como uma pergunta conceitual, a ser respondida considerando o desenho do estudo e a natureza das conclusões a serem tiradas dele.F
Um dos meus instrutores de estatística, Gary McClelland, gostava de dizer que talvez a questão fundamental da inferência estatística seja: "Comparado a quê?" Seguindo Gary, acho que podemos enquadrar a questão conceitual que mencionei acima como: Qual é a classe de referência dos resultados experimentais hipotéticos com os quais quero comparar meus resultados reais observados? Permanecendo no contexto da psicolinguística e considerando um projeto experimental no qual temos uma amostra de sujeitos respondendo a uma amostra de palavras classificadas em uma das duas condições (o projeto específico discutido longamente por Clark, 1973), focalizarei duas possibilidades:
Para tornar isso totalmente concreto, abaixo estão alguns gráficos de (acima) 4 conjuntos de resultados hipotéticos de 4 experimentos simulados no Modelo 1; (abaixo) 4 conjuntos de resultados hipotéticos de 4 experimentos simulados no Modelo 2. Cada experimento exibe os resultados de duas maneiras: (painéis esquerdos) agrupados por Sujeitos, com os meios Sujeito por Condição plotados e vinculados para cada Sujeito; (painéis à direita) agrupados por Palavras, com gráficos de caixa resumindo a distribuição de respostas para cada Palavra. Todas as experiências envolvem 10 indivíduos que respondem a 10 palavras e em todas as experiências a "hipótese nula" de nenhuma diferença de condição é verdadeira na população relevante.
Temas e Palavras, ambos aleatórios: 4 experimentos simulados
Observe aqui que em cada experimento, os perfis de resposta para os sujeitos e as palavras são totalmente diferentes. Para os sujeitos, às vezes temos respostas gerais baixas, às vezes respostas altas, às vezes assuntos que tendem a mostrar grandes diferenças de condição e, às vezes, assuntos que tendem a mostrar pequena diferença de condição. Da mesma forma, para as Palavras, às vezes recebemos Palavras que tendem a obter respostas baixas, e às vezes Palavras que tendem a obter respostas altas.
Assuntos aleatórios, Palavras corrigidas: 4 experimentos simulados
Observe aqui que, nos 4 experimentos simulados, os sujeitos parecem diferentes a cada vez, mas os perfis de respostas para as palavras parecem basicamente os mesmos, consistentes com a suposição de que estamos reutilizando o mesmo conjunto de palavras para cada experimento nesse modelo.
Nossa escolha de pensar se o Modelo 1 (sujeitos e palavras aleatórios) ou o Modelo 2 (assuntos aleatórios, palavras corrigidas) fornece a classe de referência apropriada para os resultados experimentais que realmente observamos podem fazer uma grande diferença para nossa avaliação de se a manipulação da condição "trabalhou". Esperamos mais variações de chance nos dados no Modelo 1 do que no Modelo 2, porque há mais "partes móveis". Portanto, se as conclusões que desejamos tirar são mais consistentes com as premissas do Modelo 1, onde a variabilidade da chance é relativamente maior, mas analisamos nossos dados sob as premissas do Modelo 2, onde a variabilidade da chance é relativamente menor, nosso erro do Tipo 1 A taxa para testar a diferença de condição será inflada em alguma extensão (possivelmente muito grande). Para mais informações, consulte as referências abaixo.
Referências
Baayen, RH, Davidson, DJ e Bates, DM (2008). Modelagem de efeitos mistos com efeitos aleatórios cruzados para assuntos e itens. Journal of memory and language, 59 (4), 390-412. PDF
Barr, DJ, Levy, R., Scheepers, C., & Tily, HJ (2013). Estrutura de efeitos aleatórios para teste de hipótese confirmatória: Mantenha-o no máximo. Journal of Memory and Language, 68 (3), 255-278. PDF
Clark, HH (1973). A falácia da linguagem como efeito fixo: uma crítica da estatística da linguagem na pesquisa psicológica. Jornal de aprendizagem verbal e comportamento verbal, 12 (4), 335-359. PDF
Coleman, EB (1964). Generalizando para uma população de idiomas. Relatórios Psicológicos, 14 (1), 219-226.
Judd, CM, Westfall, J. & Kenny, DA (2012). Tratar estímulos como um fator aleatório na psicologia social: uma solução nova e abrangente para um problema generalizado, mas amplamente ignorado. Revista de personalidade e psicologia social, 103 (1), 54. PDF
Murayama, K., Sakaki, M., Yan, VX e Smith, GM (2014). Inflação de erro tipo I na análise tradicional por participante com precisão metamemória: uma perspectiva generalizada do modelo de efeitos mistos. Jornal de Psicologia Experimental: Aprendizagem, Memória e Cognição. PDF
Pinheiro, JC, & Bates, DM (2000). Modelos de efeitos mistos em S e S-PLUS. Springer.
Raaijmakers, JG, Schrijnemakers, J., & Gremmen, F. (1999). Como lidar com “a falácia do idioma como efeito fixo”: equívocos comuns e soluções alternativas. Journal of Memory and Language, 41 (3), 416-426. PDF
fonte
Suponha que eu tenha um processo de fabricação que envolva a fabricação de material em várias máquinas diferentes. Eles são as únicas máquinas que eu tenho, então "máquina" é um efeito fixo. Mas eu produzo muitos materiais em cada máquina e estou interessado em prever coisas sobre lotes futuros. Tornarei o "número do lote" um fator aleatório, porque estou interessado nos resultados que obterei para os lotes futuros .
fonte
Portanto, você as trata como aleatórias, para que haja um efeito médio entre a média geral e a média desse fator específico, com base no tamanho amostral do fator e no número geral de observações. Isso permite que você diga que seus resultados se aplicam à população em geral, uma vez que você tem um tipo de média ponderada e uma estimativa da variação devido a esse fator; caso contrário, você realmente pode apenas dizer que seus resultados se aplicam aos níveis de fator você usou desde a regressão os tratará como fatores discretos e não aleatórios que obtêm a média ponderada.
Eles também são úteis quando você repetiu medidas sobre o mesmo assunto, pois você pode usá-las para explicar a correlação entre medidas no mesmo assunto.
fonte
(Resposta original)
Um local em que você é essencialmente obrigado a usar efeitos aleatórios é quando deseja incluir parâmetros que são invariantes no nível de agrupamento do efeito fixo.
Por exemplo, digamos que você queira investigar o impacto das características do médico (por exemplo, educação) nos resultados do paciente. O conjunto de dados é no nível do paciente, com resultados observados e características do paciente / médico. Como os pacientes tratados com um único médico provavelmente estão correlacionados, você deseja controlar isso. Você pode inserir um efeito fixo do médico aqui, mas, ao fazer isso, impede a inclusão de qualquer uma das características do médico no modelo. O que é problemático se o interesse estiver nas características do médico.
fonte
Eu acho que está relacionado à consistência das estimativas.
Neyman e Scott (1948) apontam o problema da consistência de
consistente. Pelo menos, foi assim que eu entendi ...
fonte