Gostaria de saber se existe uma variante boxplot adaptada aos dados distribuídos de Poisson (ou possivelmente outras distribuições)?
Com uma distribuição gaussiana, bigodes colocados em L = Q1 - 1,5 IQR e U = Q3 + 1,5 IQR, o boxplot tem a propriedade de que haverá aproximadamente tantos outliers baixos (pontos abaixo de L) quanto existem outliers altos (pontos acima de U )
Se os dados são Poisson distribuídos, no entanto, isso não se aplica mais devido à distorção positiva que obtemos Pr (X <L) <Pr (X> U) . Existe uma maneira alternativa de colocar os bigodes de tal forma que eles "se encaixem" em uma distribuição de Poisson?
Respostas:
Os boxplots não foram projetados para garantir baixa probabilidade de exceder as extremidades dos bigodes em todos os casos: eles são destinados e geralmente usados como caracterizações gráficas simples da maior parte de um conjunto de dados. Como tal, eles são bons mesmo quando os dados têm distribuições muito distorcidas (embora possam não revelar tanta informação quanto sobre distribuições aproximadamente não distorcidas).
Quando os boxplots ficam distorcidos, como ocorre com uma distribuição Poisson, o próximo passo é reexprimir a variável subjacente (com uma transformação crescente monotônica) e redesenhar os boxplots. Como a variação de uma distribuição de Poisson é proporcional à sua média, uma boa transformação a ser usada é a raiz quadrada.
Cada boxplot representa 50 iid extraídos de uma distribuição de Poisson com determinada intensidade (de 1 a 10, com duas tentativas para cada intensidade). Observe que a assimetria tende a ser baixa.
Os mesmos dados em uma escala de raiz quadrada tendem a ter gráficos de caixa um pouco mais simétricos e (exceto a menor intensidade) têm IQRs aproximadamente iguais, independentemente da intensidade).
Em suma, não altere o algoritmo boxplot: expresse novamente os dados.
A propósito, as chances relevantes de se computar são as seguintes: qual é a chance de uma variável normal independente exceder a cerca superior (inferior) U ( L ), conforme estimado a partir de n desenhos independentes da mesma distribuição?X U L n Isso explica o fato de que as cercas em um boxplot não são calculadas a partir da distribuição subjacente, mas são estimadas a partir dos dados. Na maioria dos casos, as chances são muito maiores que 1%! Por exemplo, aqui (com base em 10.000 ensaios em Monte-Carlo) é um histograma das chances do log (base 10) para o caso :n=9
(Como a distribuição normal é simétrica, este histograma se aplica a ambas as cercas.) O logaritmo de 1% / 2 é de cerca de -2,3. Claramente, na maioria das vezes a probabilidade é maior que isso. Cerca de 16% do tempo excede 10%!
Acontece (não vou confundir esta resposta com os detalhes) que as distribuições dessas chances são comparáveis ao caso normal (para pequenos ), mesmo para distribuições de Poisson de intensidade tão baixa quanto 1, o que é bastante distorcido. A principal diferença é que geralmente é menos provável encontrar um outlier baixo e um pouco mais provável encontrar um outlier alto.n
fonte
Conheço uma generalização de gráficos de caixa padrão nos quais os comprimentos dos bigodes são ajustados para dar conta de dados distorcidos. Os detalhes são melhor explicados em um white paper muito claro e conciso (Vandervieren, E., Hubert, M. (2004) "Um boxplot ajustado para distribuições distorcidas", veja aqui ).
Existe uma implementação deste ( robustbase :: adjbox () ), bem como uma implementação do matlab (em uma biblioteca chamada libra ).R robustbase::adjbox() libra
Pessoalmente, acho que é uma alternativa melhor à transformação de dados (embora também seja baseada em uma regra ad-hoc, consulte o white paper).
Aliás, acho que tenho algo a acrescentar ao exemplo do whuber aqui. Na medida em que discutimos o comportamento dos bigodes, também devemos considerar o que acontece quando consideramos dados contaminados:
Nesse modelo de contaminação, B1 possui essencialmente uma distribuição log-normal, exceto 20% dos dados que estão parcialmente à esquerda e meio à direita (o ponto de interrupção do adjbox é o mesmo que o de boxplots regulares, ou seja, assume que no máximo 25% dos dados podem estar incorretos).
Os gráficos representam os gráficos de caixa clássicos dos dados transformados (usando a transformação de raiz quadrada)
e o boxplot ajustado dos dados não transformados.
Comparada aos gráficos de caixa ajustados, a opção anterior mascara os valores discrepantes reais e rotula bons dados como valores discrepantes. Em geral, será possível ocultar qualquer evidência de assimetria nos dados, classificando os pontos ofensivos como outliers.
Neste exemplo, a abordagem do uso do boxplot padrão na raiz quadrada dos dados encontra 13 valores discrepantes (todos à direita), enquanto o boxplot ajustado encontra 10 discrepantes à direita e 14 à esquerda.
EDIT: gráficos de caixa ajustados em poucas palavras.
Nos boxplots 'clássicos', os bigodes são colocados em:
Essa regra prática é ad-hoc: a justificativa é que, se a parte não contaminada dos dados for aproximadamente gaussiana, menos de 1% dos bons dados serão classificados como ruins usando essa regra.
Uma fraqueza dessa regra de vedação, conforme apontado pelo OP, é que o comprimento dos dois bigodes é idêntico, o que significa que a regra de vedação só faz sentido se a parte não contaminada dos dados tiver uma distribuição simétrica.
Uma abordagem popular é preservar a regra geral e adaptar os dados. A idéia é transformar os dados usando alguma transformação monótona de correção de inclinação (raiz quadrada ou log ou, mais geralmente, transformações box-cox). Essa é uma abordagem um pouco confusa: ela se baseia na lógica circular (a transformação deve ser escolhida de modo a corrigir a assimetria da parte não contaminada dos dados, que neste momento é inaceitável) e tende a dificultar a interpretação dos dados. visualmente. De qualquer forma, esse permanece um procedimento estranho, pelo qual se modifica os dados para preservar o que é afinal uma regra ad-hoc.
Uma alternativa é deixar os dados intocados e alterar a regra do bigode. O boxplot ajustado permite que o comprimento de cada bigode varie de acordo com um índice que mede a assimetria da parte não contaminada dos dados:
fonte