Como modelar dados contínuos inflados a zero não negativos?

15

Atualmente, estou tentando aplicar um modelo linear ( family = gaussian) a um indicador de biodiversidade que não pode assumir valores inferiores a zero, é inflado a zero e é contínuo. Os valores variam de 0 a um pouco acima de 0,25. Como conseqüência, há um padrão bastante óbvio nos resíduos do modelo dos quais não consegui me livrar: insira a descrição da imagem aqui

Alguém tem alguma idéia de como resolver isso?

David
fonte
11
Bem-vindo ao CV! Observe que seu nome de usuário, identicon e um link para sua página de usuário são adicionados automaticamente a todas as postagens que você faz, portanto, não há necessidade de assinar suas postagens. De fato, preferimos que você não.
quer
3
Se for inflado com zero, não poderá ser contínuo, pois as variáveis ​​contínuas não podem ter nenhum salto no cdf (e há claramente um em 0). Pode ser contínuo além dos 0s.
Glen_b -Reinstala Monica
Relacionado: stats.stackexchange.com/questions/105320
ameba says Reinstate Monica

Respostas:

31

Existem várias soluções para o caso de distribuições contínuas semi- infladas a zero:

  • Regressão Tobit : assume que os dados provêm de uma única distribuição Normal subjacente, mas que valores negativos são censurados e empilhados em zero (por exemplo, pacote censReg )
  • obstáculo ou modelo de "dois estágios": use um modelo binomial para prever se os valores são 0 ou> 0 e, em seguida, use um modelo linear (ou Gamma, ou Normal truncado ou Log-Normal) para modelar os valores diferentes de zero observados
  • 1 1<p<2x>0 0

Ou, se sua estrutura de dados é bastante simples, você pode simplesmente usar modelos lineares e usar testes de permutação ou alguma outra abordagem robusta para garantir que sua inferência não seja prejudicada pela interessante distribuição dos dados.

Existem pacotes / soluções R disponíveis para a maioria desses casos.

Há outras perguntas sobre SE sobre dados contínuos (semi) zero inflacionados (por exemplo, aqui , aqui e aqui ), mas eles não parecem oferecer uma resposta geral claro ...

Veja também Min & Agresti, 2002, Modelando Dados Não Negativos com Agrupamento em Zero: Uma Pesquisa para uma visão geral.

Ben Bolker
fonte
@ Ben Bolker Você "usaria um modelo linear (ou Gama, ou Normal truncado ou log-Normal) para modelar os" valores diferentes de zero previstos ou reais?
Rolando2