Tenho uma pergunta sobre a distribuição correta a ser usada para criar um modelo com meus dados. Realizei um inventário florestal com 50 parcelas, cada parcela medindo 20m × 50m. Para cada parcela, estimei a porcentagem de copa das árvores que sombreia o chão. Cada parcela tem um valor, em porcentagem, para a cobertura do dossel. As porcentagens variam de 0 a 0,95. Estou fazendo um modelo de porcentagem de cobertura de copa de árvore ( variável Y ), com uma matriz de variáveis X independentes baseadas em imagens de satélite e dados ambientais.
Não tenho certeza se devo usar uma distribuição binomial, pois uma variável aleatória binomial é a soma de n ensaios independentes (ou seja, variáveis aleatórias de Bernoulli). Os valores percentuais não são a soma das tentativas; elas são as porcentagens reais. Devo usar gama, mesmo que não tenha um limite superior? Devo converter porcentagens em número inteiro e usar Poisson como contagens? Devo apenas ficar com Gaussian? Não encontrei muitos exemplos na literatura ou em livros didáticos que tentam modelar porcentagens dessa maneira. Todas as dicas ou idéias são apreciadas.
Obrigado por suas respostas. De fato, a distribuição beta é exatamente o que eu preciso e é discutida detalhadamente neste artigo:
Eskelson, BN, Madsen, L., Hagar, JC e Temesgen, H. (2011). Estimativa da cobertura vegetal da mata ribeirinha com modelos de regressão Beta e cópula. Science Forest, 57 (3), 212-221.
Esses autores utilizam o pacote betareg em R de Cribari-Neto e Zeileis.
O artigo a seguir discute uma boa maneira de transformar uma variável de resposta distribuída beta quando ela inclui 0 e / ou 1 verdadeiros no intervalo de porcentagens:
- Smithson, M. e J. Verkuilen, 2006. Um espremedor de limão melhor? Regressão de máxima verossimilhança com variáveis dependentes distribuídas beta , Psychological Methods, 11 (1): 54–71.
Respostas:
Você está certo de que a distribuição binomial é para proporções discretas que surgem do número de 'sucessos' de um número finito de ensaios de Bernoulli e que isso torna a distribuição inadequada para seus dados. Você deve usar a distribuição Gama dividida pela soma desse Gama mais outro Gama. Ou seja, você deve usar a distribuição beta para modelar proporções contínuas.
Eu tenho um exemplo de regressão beta na minha resposta aqui: efeito Remove do fator em dados proporção contínuos utilizando regressão em R .
fonte
Os valores percentuais representam taxas independentes do número de amostras. Você gostaria de usar essas porcentagens como variável dependente e imagens de satélite como variável explicativa. No entanto, acho que nem todas as 50 parcelas do inventário tinham um número semelhante de amostras. Um modelo adequado que relacione essas porcentagens a outras variáveis deve levar em consideração essa incerteza na medição, fornecendo mais pesos em parcelas com amostras altas.
Além disso, a distribuição de erros no caso de seus dados é claramente binomial. A variação de erro é menor nos limites, é capturada por uma distribuição binomial.
Tudo isso me parece o exemplo arquetípico do uso de um GLM com modelo de erro binomial.
"Estatística: uma introdução usando R", capítulo 14 de Crawley discute exatamente esse tópico e como analisá-lo com R.
fonte