Como interpretar gráficos de caixas com entalhe

11

Enquanto fazia uma EDA, decidi usar um gráfico de caixa para ilustrar a diferença entre dois níveis de um fator.

A maneira como o ggplot processou o gráfico da caixa foi satisfatória, mas um pouco simplista (primeiro gráfico abaixo). Enquanto pesquisava as características das caixas, comecei a experimentar entalhes.

Entendo que os entalhes exibem o IC em torno da mediana e que, se os entalhes de duas caixas não se sobrepuserem, haverá uma 'forte evidência' - com um nível de confiança de 95% - de que as medianas diferem.

No meu caso (segundo gráfico), os entalhes não se sobrepõem significativamente. Mas por que a parte inferior da caixa no lado direito assume essa forma estranha?

Plotar os mesmos dados em um gráfico de violino não indicava nada de incomum na densidade de probabilidade do violino correspondente.

fig.1 boxplot

fig.2 boxplot entalhado

RDJ
fonte
11
No seu código ggplot, você deve usar fill = factor (am), pois atualmente am está sendo usado como uma variável numérica.
rnso
Isso é um ótimo local @rnso
RDJ
Alguém pode postar os dados originais? Eu acho que eles são de uma caixa de areia padrão para ggplot2. Também gosto da ideia de plotar os pontos de dados individuais, mas isso fica frustrado na medida em que os pontos dentro da caixa escura ficam invisíveis.
Nick Cox

Respostas:

18

No meu caso (segundo gráfico), os entalhes não se sobrepõem significativamente. Mas por que a parte inferior da caixa no lado direito assume essa forma estranha? Como eu explico isso?

Indica que o percentil 25 é de cerca de 21, o percentil 75 de cerca de 30,5. E os limites inferior e superior do entalhe são cerca de 18 e 27.

Um motivo comum é que sua distribuição está inclinada ou o tamanho da amostra é baixo. O limite do entalhe é baseado em:

medEuuman±1,57×EuQRn

Se a distância entre a mediana e o percentil 25 e a distância entre a mediana e o percentil 75 forem extremamente diferentes (como a da direita) e / ou o tamanho da amostra for baixo, o entalhe será maior. Se for amplo o suficiente para que o limite do entalhe seja mais extremo que os percentis 25 e 75 (também conhecido como caixa), o gráfico da caixa entalhada exibirá essa forma "de dentro para fora".

Penguin_Knight
fonte
11
Muito obrigado pela sua explicação detalhada. Deixe-me perguntar: por que os limites inferior e superior do entalhe são de 17 e 24, e não de 18 e 27 (no boxplot direito)?
Denis
@ Denis, obrigado por capturar isso. Eu revi.
Penguin_Knight