Existe uma variante boxplot para dados distribuídos de Poisson?

33

Gostaria de saber se existe uma variante boxplot adaptada aos dados distribuídos de Poisson (ou possivelmente outras distribuições)?

Com uma distribuição gaussiana, bigodes colocados em L = Q1 - 1,5 IQR e U = Q3 + 1,5 IQR, o boxplot tem a propriedade de que haverá aproximadamente tantos outliers baixos (pontos abaixo de L) quanto existem outliers altos (pontos acima de U )

Se os dados são Poisson distribuídos, no entanto, isso não se aplica mais devido à distorção positiva que obtemos Pr (X <L) <Pr (X> U) . Existe uma maneira alternativa de colocar os bigodes de tal forma que eles "se encaixem" em uma distribuição de Poisson?

caas
fonte
2
Tente registrá-lo primeiro? Você também pode dizer o que deseja que seu boxplot seja 'bem adaptado'.
conjugateprior
2
Há um problema ao fazer essa modificação - as pessoas estão acostumadas à definição padrão do gráfico de caixa e provavelmente a assumirão quando olharem para o gráfico, quer você goste ou não. Assim, isso pode trazer mais confusão do que ganho.
@mbq:> o que acontece com os boxplots é que eles combinam dois recursos em uma ferramenta; um recurso de visualização de dados (a caixa) e um recurso de detecção de outlier (os bigodes). O que você diz é absolutamente verdadeiro sobre o primeiro, mas o último poderia usar um ajuste de inclinação.
user603
@conjugateprior Aqui está um exemplo de Poisson: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... notou um problema com apenas pegar registros?
Glen_b -Reinstala Monica
@ Glen_b Deve ser por isso que é um comentário, não uma resposta. E por que tem duas partes.
conjugateprior

Respostas:

31

Os boxplots não foram projetados para garantir baixa probabilidade de exceder as extremidades dos bigodes em todos os casos: eles são destinados e geralmente usados ​​como caracterizações gráficas simples da maior parte de um conjunto de dados. Como tal, eles são bons mesmo quando os dados têm distribuições muito distorcidas (embora possam não revelar tanta informação quanto sobre distribuições aproximadamente não distorcidas).

Quando os boxplots ficam distorcidos, como ocorre com uma distribuição Poisson, o próximo passo é reexprimir a variável subjacente (com uma transformação crescente monotônica) e redesenhar os boxplots. Como a variação de uma distribuição de Poisson é proporcional à sua média, uma boa transformação a ser usada é a raiz quadrada.

Cada boxplot representa 50 iid extraídos de uma distribuição de Poisson com determinada intensidade (de 1 a 10, com duas tentativas para cada intensidade). Observe que a assimetria tende a ser baixa.

boxplots lado a lado

Os mesmos dados em uma escala de raiz quadrada tendem a ter gráficos de caixa um pouco mais simétricos e (exceto a menor intensidade) têm IQRs aproximadamente iguais, independentemente da intensidade).

boxplots de dados transformados

Em suma, não altere o algoritmo boxplot: expresse novamente os dados.


A propósito, as chances relevantes de se computar são as seguintes: qual é a chance de uma variável normal independente exceder a cerca superior (inferior) U ( L ), conforme estimado a partir de n desenhos independentes da mesma distribuição? XULn Isso explica o fato de que as cercas em um boxplot não são calculadas a partir da distribuição subjacente, mas são estimadas a partir dos dados. Na maioria dos casos, as chances são muito maiores que 1%! Por exemplo, aqui (com base em 10.000 ensaios em Monte-Carlo) é um histograma das chances do log (base 10) para o caso :n=9

histograma de chances

(Como a distribuição normal é simétrica, este histograma se aplica a ambas as cercas.) O logaritmo de 1% / 2 é de cerca de -2,3. Claramente, na maioria das vezes a probabilidade é maior que isso. Cerca de 16% do tempo excede 10%!

Acontece (não vou confundir esta resposta com os detalhes) que as distribuições dessas chances são comparáveis ​​ao caso normal (para pequenos ), mesmo para distribuições de Poisson de intensidade tão baixa quanto 1, o que é bastante distorcido. A principal diferença é que geralmente é menos provável encontrar um outlier baixo e um pouco mais provável encontrar um outlier alto.n

whuber
fonte
1
+1, eu não tinha visto esse tópico antes. Eu fiz (acredito) o mesmo ponto discutido aqui após a regra horizontal de uma maneira diferente neste post: Se excluir casos que são sinalizados como outliers pelo software estatístico .
gung - Restabelece Monica
Sim, esse é o mesmo ponto @ gung - e você postou uma boa resposta lá.
whuber
26

Conheço uma generalização de gráficos de caixa padrão nos quais os comprimentos dos bigodes são ajustados para dar conta de dados distorcidos. Os detalhes são melhor explicados em um white paper muito claro e conciso (Vandervieren, E., Hubert, M. (2004) "Um boxplot ajustado para distribuições distorcidas", veja aqui ).

Existe uma implementação deste ( robustbase :: adjbox () ), bem como uma implementação do matlab (em uma biblioteca chamada libra ).Rrobustbase::adjbox()libra

Pessoalmente, acho que é uma alternativa melhor à transformação de dados (embora também seja baseada em uma regra ad-hoc, consulte o white paper).

Aliás, acho que tenho algo a acrescentar ao exemplo do whuber aqui. Na medida em que discutimos o comportamento dos bigodes, também devemos considerar o que acontece quando consideramos dados contaminados:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

Nesse modelo de contaminação, B1 possui essencialmente uma distribuição log-normal, exceto 20% dos dados que estão parcialmente à esquerda e meio à direita (o ponto de interrupção do adjbox é o mesmo que o de boxplots regulares, ou seja, assume que no máximo 25% dos dados podem estar incorretos).

Os gráficos representam os gráficos de caixa clássicos dos dados transformados (usando a transformação de raiz quadrada)

classical boxplot on square root transform of the data

e o boxplot ajustado dos dados não transformados.

adjusted boxplot of un-transformed data

Comparada aos gráficos de caixa ajustados, a opção anterior mascara os valores discrepantes reais e rotula bons dados como valores discrepantes. Em geral, será possível ocultar qualquer evidência de assimetria nos dados, classificando os pontos ofensivos como outliers.

Neste exemplo, a abordagem do uso do boxplot padrão na raiz quadrada dos dados encontra 13 valores discrepantes (todos à direita), enquanto o boxplot ajustado encontra 10 discrepantes à direita e 14 à esquerda.

EDIT: gráficos de caixa ajustados em poucas palavras.

Nos boxplots 'clássicos', os bigodes são colocados em:

Q1Q3

Q1Q3

Essa regra prática é ad-hoc: a justificativa é que, se a parte não contaminada dos dados for aproximadamente gaussiana, menos de 1% dos bons dados serão classificados como ruins usando essa regra.

Uma fraqueza dessa regra de vedação, conforme apontado pelo OP, é que o comprimento dos dois bigodes é idêntico, o que significa que a regra de vedação só faz sentido se a parte não contaminada dos dados tiver uma distribuição simétrica.

Uma abordagem popular é preservar a regra geral e adaptar os dados. A idéia é transformar os dados usando alguma transformação monótona de correção de inclinação (raiz quadrada ou log ou, mais geralmente, transformações box-cox). Essa é uma abordagem um pouco confusa: ela se baseia na lógica circular (a transformação deve ser escolhida de modo a corrigir a assimetria da parte não contaminada dos dados, que neste momento é inaceitável) e tende a dificultar a interpretação dos dados. visualmente. De qualquer forma, esse permanece um procedimento estranho, pelo qual se modifica os dados para preservar o que é afinal uma regra ad-hoc.

Uma alternativa é deixar os dados intocados e alterar a regra do bigode. O boxplot ajustado permite que o comprimento de cada bigode varie de acordo com um índice que mede a assimetria da parte não contaminada dos dados:

Q1exp(M,α)Q3exp(M,β)

Mα β

M0

MMαβ

Q1exp(4M)1.5*IQR and Q3+exp(3M)1.5*IQR, if M0

Q1-exp(3M)1.5*IQR and Q3+exp(4M)1.5*IQR, if M<0

user603
fonte
1
I would be interested to know how you find my example "unhelpful"--just branding it as such is not constructive. I will admit that the example is somewhat disappointing in the sense that the data transformation does not represent a spectacular improvement. That's the fault of the Poisson distributions: they just aren't skewed enough to be worth the bother of all this analysis!
whuber
@whuber:> first, sorry for the tone: it was from an un-edited first draft and it has been corrected (i typically write shorthand paragraphs meant as note to self, then repeatedly go over them -- this one got lost in the long inter-winded response). Now for the critic itself: your example depicts the behavior of the solution using transformation in the case of uncontaminated data. IMHO the whisker rule should -perhaps preliminary- be evaluated with a contamination model in mind.
user603
@user Thanks for the clarification. I don't mind the criticism, which is interesting, and I appreciate the references to adjusted boxplots. (+1)
whuber
I agree with user603 that there is a difference in whether you inspect a pure distribution (such as in whubers answer) or have data from a distribution plus some outliers (discussed here as contamination). From my perspective, in real settings, a boxplot is used to scan for outliers. Followingly, an analysis of boxplots that omits outliers somehow misses the point. Therefore, this answer seems to better serve the purpose for using boxplots.
Henrik
2
@Henrik Identifying outliers is only one of the many purposes of boxplots. Tukey's approach was first to find an appropriate re-expression of the data that made the middle of their distribution approximately symmetric. This obviates the need for any adjustment for skewness. That already accomplishes a lot in terms of permitting comparisons among boxplots, which is where they become truly useful. "Adjusting" the whiskers completely misses out on this fundamental issue. Therefore I would be wary of using the adjustment: its need is a signal that the analysis is not being done well.
whuber