Eu tenho um conjunto de números que se supõe serem provenientes de uma distribuição de Poisson. O conjunto também possui alguns outliers e, por esse motivo, as estimativas de máxima probabilidade são muito afetadas. Ouvi dizer que procedimentos de estimativa robustos podem ajudar nessa situação. Alguém pode explicar como fazer isso? Eu não sou um estudante de estatística.
Eu descobri que a glmrob
função em R pode ser usada para isso. (Eu sou bastante novo para R). Mas não consegui descobrir como usá-lo, apesar de ler as páginas do manual. Em particular, sou incapaz de entender como obter um forumula
que é o primeiro argumento para a função glmrob.
Obrigado.
sumY ~ Age10 + Base4*Trt
. Com os dados que tenho, não consigo criar nenhuma dessas fórmulas. Eu apenas tenho um monte de números supostos provenientes de uma distribuição de Poisson. Pelo que entendi, não tenho uma variável dependente e uma variável independente e pode ser por isso que sou incapaz de criar uma fórmula.y~1
.Respostas:
@cardinal telegrafou uma resposta nos comentários. Vamos realizá-lo. Seu argumento é que, embora os modelos lineares gerais (como implementados por
lm
e, nesse casoglmRob
) pareçam ter a intenção de avaliar as relações entre variáveis, eles também podem ser ferramentas poderosas para estudar uma única variável. O truque baseia-se no fato de que a regressão de dados contra uma constante é apenas outra maneira de estimar seu valor médio ("localização") .Como exemplo, gere alguns dados distribuídos por Poisson:
Nesse caso,(1,5,2,3,2,2,1,1,3,1) 2
R
produzirá o vetor dos valores a partir de uma distribuição de Poisson da média . Estime sua localização com :x
glmRob
A resposta nos diz que a interceptação é estimada em . Obviamente, qualquer pessoa que use um método estatístico precisa saber como ele funciona: quando você usa modelos lineares generalizados com a família Poisson, a função "link" padrão é o logaritmo. Isso significa que a interceptação é o logaritmo da localização estimada. Então calculamos0.7268
O resultado, , está confortavelmente próximo de : o procedimento parece funcionar. Para ver o que está fazendo, plote os dados:2.0685 2
A linha ajustada é puramente horizontal e, portanto, estima o meio dos valores verticais: nossos dados. É tudo o que está acontecendo.
Para verificar a robustez, vamos criar um erro discrepante inserindo alguns zeros no primeiro valor de
x
:Desta vez, para maior flexibilidade no pós-processamento, salvaremos a saída de
glmRob
:Para obter a média estimada, podemos solicitar
O valor desta vez é igual a : um pouco fora, mas não muito longe, dado que o valor médio de (obtido como ) é . É nesse sentido que esse procedimento é "robusto". Mais informações podem ser obtidas via2.496 12
x
mean(x)
Sua saída nos mostra, entre outras coisas, que o peso associado ao valor periférico de pol é apenas , quase , identificando o suspeito extremos.100 0.02179 0
x[1]
fonte