Estimativa robusta da distribuição de Poisson

8

Eu tenho um conjunto de números que se supõe serem provenientes de uma distribuição de Poisson. O conjunto também possui alguns outliers e, por esse motivo, as estimativas de máxima probabilidade são muito afetadas. Ouvi dizer que procedimentos de estimativa robustos podem ajudar nessa situação. Alguém pode explicar como fazer isso? Eu não sou um estudante de estatística.

Eu descobri que a glmrobfunção em R pode ser usada para isso. (Eu sou bastante novo para R). Mas não consegui descobrir como usá-lo, apesar de ler as páginas do manual. Em particular, sou incapaz de entender como obter um forumulaque é o primeiro argumento para a função glmrob.

Obrigado.

suresh
fonte
1
Você leu a documentação do glmrob ? Existe um código de exemplo para um ajuste robusto de Poisson na p. 23.
whuber
Eu olhei para eles. Nesse exemplo na página 23, existe uma fórmula como esta sumY ~ Age10 + Base4*Trt. Com os dados que tenho, não consigo criar nenhuma dessas fórmulas. Eu apenas tenho um monte de números supostos provenientes de uma distribuição de Poisson. Pelo que entendi, não tenho uma variável dependente e uma variável independente e pode ser por isso que sou incapaz de criar uma fórmula.
amigos estão dizendo sobre suresh
2
Você implicitamente tem um termo de interceptação.
cardeal
2
Você tem contagens de pontos que são suas respostas e seus "preditores" consistem em apenas um termo de interceptação, ou seja, você deseja modelá-lo como se todas as suas respostas viessem da mesma distribuição. Isso faz mais sentido? :)
cardeal
1
Exemplo fórmula: y~1.
cardeal

Respostas:

17

@cardinal telegrafou uma resposta nos comentários. Vamos realizá-lo. Seu argumento é que, embora os modelos lineares gerais (como implementados por lme, nesse caso glmRob) pareçam ter a intenção de avaliar as relações entre variáveis, eles também podem ser ferramentas poderosas para estudar uma única variável. O truque baseia-se no fato de que a regressão de dados contra uma constante é apenas outra maneira de estimar seu valor médio ("localização") .

Como exemplo, gere alguns dados distribuídos por Poisson:

set.seed(17)
x <- rpois(10, lambda=2)

Nesse caso, Rproduzirá o vetor dos valores a partir de uma distribuição de Poisson da média . Estime sua localização com :(1,5,2,3,2,2,1,1,3,1)x2glmRob

library(robust)
glmrob(x ~ 1, family=poisson())

A resposta nos diz que a interceptação é estimada em . Obviamente, qualquer pessoa que use um método estatístico precisa saber como ele funciona: quando você usa modelos lineares generalizados com a família Poisson, a função "link" padrão é o logaritmo. Isso significa que a interceptação é o logaritmo da localização estimada. Então calculamos0.7268

exp(0.7268)

O resultado, , está confortavelmente próximo de : o procedimento parece funcionar. Para ver o que está fazendo, plote os dados:2.06852

plot(x, ylim=c(0, max(x)))
abline(exp(0.7268), 0, col="red")

Lote com linha ajustada

A linha ajustada é puramente horizontal e, portanto, estima o meio dos valores verticais: nossos dados. É tudo o que está acontecendo.

Para verificar a robustez, vamos criar um erro discrepante inserindo alguns zeros no primeiro valor de x:

x[1] <- 100

Desta vez, para maior flexibilidade no pós-processamento, salvaremos a saída de glmRob:

m <- glmrob(x ~ 1, family=poisson())

Para obter a média estimada, podemos solicitar

exp(m$coefficients)

O valor desta vez é igual a : um pouco fora, mas não muito longe, dado que o valor médio de (obtido como ) é . É nesse sentido que esse procedimento é "robusto". Mais informações podem ser obtidas via2.496xmean(x)12

summary(m)

Sua saída nos mostra, entre outras coisas, que o peso associado ao valor periférico de pol é apenas , quase , identificando o suspeito extremos.100x[1]0.021790

whuber
fonte
3
(+1) Boa apresentação, como de costume. :)
cardeal
Muito obrigado. Essa resposta é muito importante para mim agora, porque sou completamente nova em tudo isso (termos como preditor, interceptação e até o pacote R).
suresh
Você pode apontar para uma ferramenta semelhante para uma distribuição bivariada de Poisson?
Diogo Santos
@Diogo Depende do que essa ferramenta pretende fazer e exatamente de que forma de dependência entre os marginais está sendo usada.
whuber