Digamos que eu tenha uma grande amostra de valores em . Gostaria de estimar a distribuição subjacente . A maioria das amostras vem dessa distribuição assumida , enquanto o restante são discrepantes que eu gostaria de ignorar na estimativa de e .Beta ( α , β ) Beta ( α , β ) α β
Qual é uma boa maneira de proceder sobre isso?
A padrão: usada nos boxplots seria uma aproximação ruim?
Qual seria uma maneira mais fundamentada de resolver isso? Existem prévias específicas em e que funcionariam bem nesse tipo de problema?β
outliers
pymc
beta-distribution
Amelio Vazquez-Reina
fonte
fonte
Respostas:
Uma maneira mais sistemática de lidar com esse problema seria usar um modelo explícito de mistura, com uma especificação da distribuição dos 'outliers'. Uma forma simples seria usar uma mistura de uma distribuição beta (para os pontos em que você está interessado) e uma distribuição uniforme (para os 'outliers'). Ao modelar os dados como uma distribuição de mistura, você pode obter estimativas de e que automaticamente levam em consideração o fato de que alguns dos pontos podem ser discrepantes.βα β
Para resolver esse problema usando um modelo de mistura, seja a probabilidade de um 'outlier' e assuma que você tenha os valores IID . A função de probabilidade para os dados observados é:X 1 , . . . , X n ~ φ ⋅ L ( 0 , 1 ) + ( 1 - φ ) ⋅ Beta ( α , β )ϕ X1,...,Xn∼ϕ⋅U(0,1)+(1−ϕ)⋅Beta(α,β)
Você pode prosseguir a partir daqui usando MLE clássico ou estimativa bayesiana. Qualquer um exigirá técnicas numéricas. Tendo estimado os três parâmetros no modelo, você teria uma estimativa de e que incorpora automaticamente a possibilidade de discrepâncias. Você também teria uma estimativa da proporção de discrepantes do modelo de mistura.α β
fonte