Eu tenho o que eu ingenuamente pensei ser um problema bastante direto que envolve a detecção de valores extremos para muitos conjuntos diferentes de dados de contagem. Especificamente, quero determinar se um ou mais valores em uma série de dados de contagem são maiores ou menores que o esperado em relação ao restante das contagens na distribuição.
O fator de confusão é que eu preciso fazer isso para 3.500 distribuições e é provável que algumas delas se encaixem em um poisson superdisperso inflado com zero, enquanto outras podem se encaixar melhor em um binômio negativo ou ZINB, enquanto outras ainda podem ser normalmente distribuídas. Por esse motivo, pontuações Z simples ou plotagem da distribuição não são apropriadas para grande parte do conjunto de dados. Aqui está um exemplo dos dados de contagem para os quais desejo detectar valores discrepantes.
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
Inicialmente, pensei que precisaria escrever um loop em Python ou R que aplicasse um conjunto de modelos a cada distribuição e selecionasse o melhor modelo de acordo com a AIC ou outra (talvez o fitdistrplus em R?). Eu poderia então perguntar o que eram extremos para a distribuição dada (as contagens que caem nas caudas, por exemplo, uma contagem de "4" seria um desvio na distribuição de contagens1 acima?). No entanto, não tenho certeza se essa é uma estratégia válida e me ocorreu que pode haver uma metodologia simples para determinar discrepâncias nos dados de contagem dos quais eu não estava ciente. Eu pesquisei bastante e não encontrei nada que pareça apropriado para o meu problema, dado o número de distribuições que quero examinar.
Meu objetivo final é detectar aumentos ou diminuições significativas em uma contagem para cada distribuição de contagens, usando a metodologia mais estatisticamente apropriada.
fonte