Ajustando um GLMM binomial (glmer) a uma variável de resposta que é uma proporção ou fração

Espero que alguém possa ajudar com o que considero uma pergunta relativamente simples, e acho que sei a resposta, mas sem confirmação ela se tornou algo que eu simplesmente não posso ter certeza.

Eu tenho alguns dados de contagem como uma variável de resposta e quero medir como essa variável muda com a presença proporcional de algo.

Mais detalhadamente, a variável de resposta é a contagem da presença de uma espécie de inseto em vários locais, portanto, por exemplo, um local é amostrado 10 vezes e essa espécie pode ocorrer 4 vezes.

Quero ver se isso se correlaciona com a presença proporcional de um grupo de espécies vegetais na comunidade geral de plantas nesses locais.

Isso significa que meus dados têm a seguinte aparência (este é apenas um exemplo)

Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence
1, 5, 10, 0.5
2, 3, 10, 0.3
3, 7, 9, 0.6
4, 0, 9, 0.1

Os dados também incluem um efeito aleatório para localização.

Pensei em dois métodos, um seria um modelo linear ( lmer) com os insetos convertidos em uma proporção, por exemplo

 lmer.model<-lmer(insectCount/NumberOfInsectSamples~
 ProportionalPlantGroupPresence+(1|Location),data=Data)

O segundo seria um GLMM binomial ( glmer), por exemplo

glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~
 ProportionalPlantGroupPresence+(1|Location),
 data=Data,family="binomial")

Acredito que o binomial glmer seja o método correto, no entanto, eles produzem resultados bastante diferentes. Parece que não consigo encontrar uma resposta definitiva na rede sem ainda me sentir um pouco incerto e desejo ter certeza de que não estou cometendo um erro.

Qualquer ajuda ou insight sobre métodos alternativos sobre isso seria muito apreciada.

r binomial proportion glmm lme4-nlme ALs
fonte

Veja também: stats.stackexchange.com/questions/87956

ameba

Respostas:

O GLMM binomial é provavelmente a resposta certa.

Especialmente com um número pequeno a moderado de amostras (9 e 10 no seu exemplo), a distribuição da variável de resposta provavelmente será heterocedástica (a variação não será constante e, em particular, dependerá da média de maneira sistemática) e distante da Normalidade, de uma maneira que será difícil mudar, especialmente se as proporções estiverem próximas de 0 ou 1 para alguns valores da variável preditora. Isso faz do GLMM uma boa ideia.
Você deve ter cuidado para verificar se há excesso de dispersão / conta. Se você tiver uma única observação (ou seja, uma única amostra / linha binomial em seu quadro de dados) por local, seu (1|Site)efeito aleatório lidará com isso automaticamente (embora veja Harrison 2015 para uma nota de advertência)
se a suposição anterior estiver correta (você só tem uma única amostra binomial por local), também poderá ajustá-la como um modelo binomial regular ( glm(...,family=binomial)- nesse caso, você também poderá usar um modelo quasibinomial ( family=quasibinomial) como uma maneira alternativa mais simples para explicar a sobredispersão
se desejar, você também pode ajustar seu GLMM com a proporção como resposta, se definir o weightsargumento para igualar o número de amostras:
```
 glmer(insectCount/NumberOfInsectSamples~ProportionalPlantGroupPresence+
       (1|Location),
       weights=NumberofInsectSamples,
       data=Data,family="binomial")
```
(isso deve fornecer resultados idênticos ao que glmer()você tem na sua pergunta).

Harrison, Xavier A. " Uma comparação do efeito aleatório no nível de observação e modelos beta-binomiais para modelagem de superdispersão em dados binomiais em ecologia e evolução ". PeerJ 3 (21 de julho de 2015): e1114. doi: 10.7717 / par1.1114.

Ben Bolker
fonte

Oi Ben, Muito obrigado pela sua resposta clara e abrangente!

ALs 4/16