Atualmente, estou analisando dados de uma série de experimentos comportamentais que usam a seguinte medida. Os participantes deste experimento são convidados a selecionar pistas que outras pessoas (fictícias) poderiam usar para ajudar a resolver uma série de 10 anagramas. Os participantes são levados a acreditar que essas outras pessoas ganharão ou perderão dinheiro, dependendo de seu desempenho na resolução dos anagramas. As pistas variam em como elas são úteis. Por exemplo, para o anagrama NUNGRIN, um anagrama de RUNNING, três pistas podem ser:
- Movendo-se rapidamente (inútil)
- O que você faz em uma corrida de maratona (útil)
- Nem sempre é um hobby saudável (inútil)
Para formar a medida, conto o número de vezes (em 10) em que um participante escolhe uma pista inútil para a outra pessoa. Nas experiências, estou usando uma variedade de manipulações diferentes para afetar a utilidade das pistas que as pessoas selecionam.
Como a medida de utilidade / falta de ajuda é bastante fortemente inclinada positivamente (uma grande proporção de pessoas sempre escolhe as 10 pistas mais úteis) e porque a medida é uma variável de contagem, eu tenho usado um Modelo Linear Generalizado de Poisson para analisar esses dados. No entanto, quando li um pouco mais sobre a regressão de Poisson, descobri que, como a regressão de Poisson não estima independentemente a média e a variação de uma distribuição, geralmente subestima a variação em um conjunto de dados. Comecei a investigar alternativas à regressão de Poisson, como a regressão quase-pontual ou regressão binomial negativa. No entanto, admito que sou bastante novo nesse tipo de modelo, por isso estou aqui para pedir conselhos.
Alguém tem alguma recomendação sobre qual modelo usar para esse tipo de dados? Existem outras considerações das quais devo estar ciente (por exemplo, um modelo em particular é mais poderoso que outro?)? Que tipo de diagnóstico devo analisar para determinar se o modelo selecionado está manipulando meus dados de maneira adequada?
fonte
Respostas:
Seu resultado é o número de pistas úteis em 10, que é uma variável aleatória binomial. Portanto, você deve analisá-lo com algum tipo de regressão binomial, provavelmente quase binomial, para permitir superdispersão. Observe que o Poisson e as distribuições binomiais negativas enganosamente nomeadas são adequadas para dados de contagem ilimitada.
fonte
betabin
noaod
pacote fará isso.Eu também recomendaria olhar para o binômio negativo se os possíveis resultados fossem infinitos, como no Poisson. Você pode consultar um dos livros de Joe Hilbe. Ele tem um no GEE e outro na regressão binomial negativa, que contrasta com a regressão de Poisson. Mas, como foi apontado por Aniko, existem apenas 10 pistas, de modo que cada respondente pode ter apenas 0, 1, 2, 3, ..., 10 e, portanto, nem Poisson nem exponencial negativo são apropriados.
fonte
Bom ponto por @Aniko. Outra opção é a regressão beta. Havia um artigo com o título "A Better Lemon Squeezer" que dava muitas informações sobre esse método.
fonte