Eu me deparei com várias questões práticas ao modelar dados de contagem de pesquisas experimentais usando um experimento dentro do assunto. Descrevo brevemente o experimento, os dados e o que fiz até agora, seguidos pelas minhas perguntas.
Quatro filmes diferentes foram exibidos para uma amostra de entrevistados em sequência. Após cada filme, foi realizada uma entrevista, da qual contamos o número de ocorrências de determinadas afirmações que eram de interesse para o RQ (variável de contagem prevista). Também registramos o número máximo de ocorrências possíveis (unidades de codificação; variável de deslocamento). Além disso, várias características dos filmes foram medidas em escala contínua, das quais, para uma, temos uma hipótese causal de um efeito da característica do filme na contagem de afirmações enquanto as outras são controladoras (preditores).
A estratégia de modelagem adotada até o momento é a seguinte:
Estime um modelo de Poisson de efeito aleatório, em que a variável causal é usada como covariável e as outras variáveis como covariáveis de controle. Este modelo possui um deslocamento igual a 'log (unidades)' (unidades de codificação). Efeitos aleatórios são obtidos entre os assuntos (as contagens específicas do filme são aninhadas nos assuntos). Encontramos a hipótese causal confirmada (coeficiente sig. Da variável causal). Na estimativa, usamos o pacote lme4 em R, em particular a função glmer.
Agora eu tenho as seguintes perguntas. Um problema comum na regressão de Poisson é a super-dispersão. Eu sei que isso pode ser testado usando uma regressão binomial negativa e avaliando se seu parâmetro de dispersão melhora o ajuste do modelo de um modelo simples de Poisson. No entanto, não sei como fazer isso em um contexto de efeito aleatório.
- Como devo testar a sobredispersão na minha situação? Testei a super-dispersão em uma regressão binomial negativa / Poisson simples (sem efeitos aleatórios) que eu sei como ajustar. O teste sugere presença de sobredispersão. No entanto, como esses modelos não levam em consideração o cluster, acho que esse teste está incorreto. Também não tenho certeza sobre o papel do deslocamento para testes de superdispersão.
- Existe algo como um modelo de regressão binomial de efeito aleatório negativo e como devo ajustá-lo em R?
- Você tem sugestões de modelos alternativos que eu deveria experimentar com os dados, ou seja, levando em conta a estrutura de medidas repetidas, contar variáveis e exposição (unidades de codificação)?
Respostas:
Em vez de verificar se há sobredispersão , o que não tem garantia de levar a uma resposta útil, e, embora se possa examinar índices de dispersão para quantificar a dispersão, sugeriria mais útil procurar uma melhor distribuição usando uma opção de distribuição discreta de uma pesquisa de qualidade adequada programa, por exemplo, a rotina FindDistribution do Mathematica . Esse tipo de pesquisa faz um trabalho bastante exaustivo ao adivinhar quais distribuições conhecidas funcionam melhor não apenas para atenuar a super-dispersão, mas também para modelar de forma mais útil muitas outras características de dados, por exemplo, qualidade de ajuste medida em uma dúzia jeitos diferentes.
Para examinar mais detalhadamente minhas distribuições candidatas, eu postaria hoc examinar resíduos para verificar a homocedasticidade e / ou tipo de distribuição e também consideraria se as distribuições candidatas podem ser reconciliadas como correspondendo a uma explicação física dos dados. O perigo desse procedimento é identificar uma distribuição inconsistente com a melhor modelagem de um conjunto de dados expandido. O perigo de não executar um procedimento post hoc é atribuir, a priori, uma distribuição escolhida arbitrariamente sem testes adequados (lixo dentro-lixo fora). A superioridade do post hocA abordagem é que ela limita os erros de ajuste e essa também é sua fraqueza, ou seja, pode subestimar os erros de modelagem por puro acaso, à medida que tentativas de distribuição são tentadas. Essa é a razão para examinar os resíduos e considerar a fisicalidade. A abordagem de cima para baixo ou a priori não oferece tal verificação post hoc da razoabilidade. Ou seja, o único método de comparar a fisicalidade da modelagem com diferentes distribuições é compará-las post hoc . Assim, surge a natureza da teoria física, testamos uma explicação hipotética dos dados com muitos experimentos antes de aceitá-los como explicações alternativas exaustivas.
fonte