Uma distribuição Tweedie pode modelar dados assimétricos com uma massa de pontos em zero quando o parâmetro (expoente na relação média-variância) estiver entre 1 e 2.
Da mesma forma, um modelo inflado a zero (seja ele contínuo ou discreto) pode ter um grande número de zeros.
Estou tendo problemas para entender por que, quando faço previsões ou calculo valores ajustados com esses tipos de modelos, todos os valores previstos são diferentes de zero.
Esses modelos podem realmente prever zeros exatos?
Por exemplo
library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")
pred
agora não contém zeros. Eu pensei que a utilidade de modelos como a distribuição Tweedie vem de sua capacidade de prever zeros exatos e a parte contínua.
Eu sei que no meu exemplo a variável x
não é muito preditiva.
Respostas:
Observe que o valor previsto em um GLM é uma média.
Para qualquer distribuição em valores não negativos, para prever uma média de 0, sua distribuição teria que ser inteiramente um pico em 0.
No entanto, com um link de log, você nunca ajustará uma média de exatamente zero (já que isso exigiria que vá para - ∞ ).η −∞
Portanto, seu problema não é um problema com o Tweedie, mas muito mais geral; você teria exatamente o mesmo problema com o Poisson (Poisson GLM comum ou inflado a zero), por exemplo.
Como a previsão de zeros exatos não ocorrerá para qualquer distribuição sobre valores não negativos com um link de log, seu pensamento sobre isso deve estar errado.
Uma de suas atrações é que ele pode modelar zeros exatos nos dados, não que as previsões médias sejam 0. [É claro que uma distribuição ajustada com média diferente de zero ainda pode ter uma probabilidade de ser exatamente zero, mesmo que a média deva exceder 0 Um intervalo de previsão adequado pode incluir 0, por exemplo.]
Não importa que a distribuição ajustada inclua uma proporção substancial de zeros - isso não faz com que a média ajustada seja zero.
Observe que, se você alterar a função de link para dizer um link de identidade, ele realmente não resolverá o problema - a média de uma variável aleatória não negativa que não é todos os zeros será positiva.
fonte
Prevendo a proporção de zeros
Eu sou o autor do pacote statmod e o autor conjunto do pacote tweedie. Tudo no seu exemplo está funcionando corretamente. O código está contabilizando corretamente quaisquer zeros que possam estar nos dados.
Como Glen_b e Tim explicaram, o valor médio previsto nunca será exatamente zero, a menos que a probabilidade de um zero seja 100%. O que pode ser interessante, porém, é a proporção prevista de zeros, e isso pode ser facilmente extraído do ajuste do modelo, como mostramos abaixo.
Aqui está um exemplo de trabalho mais sensato. Primeiro simule alguns dados:
Os dados contêm 12 zeros.
Agora instale um Tweedie glm:
Portanto, a proporção prevista de zeros varia de 38,1% nos menores valores médios até 4,5e-6 nos maiores valores médios.
A fórmula para a probabilidade de um zero exato pode ser encontrada em Dunn & Smyth (2001) Tweedie Family Densities: Methods of Evaluation ou Dunn & Smyth (2005) Series assessment of Tweedie densities model ex dispersential model .
fonte
Esta resposta foi mesclada a partir de outro segmento perguntando sobre o modelo de regressão inflacionado a zero de previsões, mas também se aplica ao modelo Tweedie GLM.
fonte