Distribuição para dados percentuais

11

Tenho uma pergunta sobre a distribuição correta a ser usada para criar um modelo com meus dados. Realizei um inventário florestal com 50 parcelas, cada parcela medindo 20m × 50m. Para cada parcela, estimei a porcentagem de copa das árvores que sombreia o chão. Cada parcela tem um valor, em porcentagem, para a cobertura do dossel. As porcentagens variam de 0 a 0,95. Estou fazendo um modelo de porcentagem de cobertura de copa de árvore ( variável Y ), com uma matriz de variáveis X independentes baseadas em imagens de satélite e dados ambientais.

Não tenho certeza se devo usar uma distribuição binomial, pois uma variável aleatória binomial é a soma de n ensaios independentes (ou seja, variáveis aleatórias de Bernoulli). Os valores percentuais não são a soma das tentativas; elas são as porcentagens reais. Devo usar gama, mesmo que não tenha um limite superior? Devo converter porcentagens em número inteiro e usar Poisson como contagens? Devo apenas ficar com Gaussian? Não encontrei muitos exemplos na literatura ou em livros didáticos que tentam modelar porcentagens dessa maneira. Todas as dicas ou idéias são apreciadas.

Obrigado por suas respostas. De fato, a distribuição beta é exatamente o que eu preciso e é discutida detalhadamente neste artigo:

Eskelson, BN, Madsen, L., Hagar, JC e Temesgen, H. (2011). Estimativa da cobertura vegetal da mata ribeirinha com modelos de regressão Beta e cópula. Science Forest, 57 (3), 212-221.

Esses autores utilizam o pacote betareg em R de Cribari-Neto e Zeileis.

O artigo a seguir discute uma boa maneira de transformar uma variável de resposta distribuída beta quando ela inclui 0 e / ou 1 verdadeiros no intervalo de porcentagens:

Smithson, M. e J. Verkuilen, 2006. Um espremedor de limão melhor? Regressão de máxima verossimilhança com variáveis dependentes distribuídas beta , Psychological Methods, 11 (1): 54–71.

distributions binomial gamma-distribution Ron
fonte

2

Você já pensou em usar um logit fracionário ou beta inflado com zero ?

Dimitriy V. Masterov

2

Obrigado por suas respostas. De fato, a distribuição beta é exatamente o que eu preciso e é discutida detalhadamente neste artigo: Eskelson, BN, Madsen, L., Hagar, JC e Temesgen, H. (2011). Estimativa da cobertura vegetal da mata ribeirinha com modelos de regressão Beta e cópula. Science Forest, 57 (3), 212-221. Esses autores utilizam o pacote betareg em R de Cribari-Neto e Zeileis. O artigo a seguir discute uma boa maneira de transformar uma variável de resposta distribuída beta quando ela inclui 0 e / ou 1 verdade na faixa de porcentagens: Smithson, M. e J. Verkuilen, 2006. Um limão melhor

7

Você está certo de que a distribuição binomial é para proporções discretas que surgem do número de 'sucessos' de um número finito de ensaios de Bernoulli e que isso torna a distribuição inadequada para seus dados. Você deve usar a distribuição Gama dividida pela soma desse Gama mais outro Gama. Ou seja, você deve usar a distribuição beta para modelar proporções contínuas.

Eu tenho um exemplo de regressão beta na minha resposta aqui: efeito Remove do fator em dados proporção contínuos utilizando regressão em R .

$0$ $(0,\ 1)$

- Reinstate Monica
fonte

3

A distribuição beta pode lidar com os zeros?

Dimitriy V. Masterov

1

Os valores percentuais representam taxas independentes do número de amostras. Você gostaria de usar essas porcentagens como variável dependente e imagens de satélite como variável explicativa. No entanto, acho que nem todas as 50 parcelas do inventário tinham um número semelhante de amostras. Um modelo adequado que relacione essas porcentagens a outras variáveis deve levar em consideração essa incerteza na medição, fornecendo mais pesos em parcelas com amostras altas.

Além disso, a distribuição de erros no caso de seus dados é claramente binomial. A variação de erro é menor nos limites, é capturada por uma distribuição binomial.

Tudo isso me parece o exemplo arquetípico do uso de um GLM com modelo de erro binomial.

"Estatística: uma introdução usando R", capítulo 14 de Crawley discute exatamente esse tópico e como analisá-lo com R.

bonobo
fonte

4

A distribuição binomial é a distribuição do número de sucessos de um número conhecido de ensaios de Bernoulli. Seu comentário de que "o fato de os ensaios de Bernoulli também serem descritos por uma distribuição binomial não significa que tudo o que é descrito por uma distribuição binomial deve estar em conformidade com a estrutura de Bernoulli" não está correto. A distribuição binomial não é apropriada para proporções contínuas. Além disso, não sugeri a distribuição Gamma, mas a distribuição beta.

gung - Restabelece Monica

11

sim, você está perfeitamente certo.

Bonobo

Distribuição para dados percentuais

Respostas: