Enquanto fazia uma EDA, decidi usar um gráfico de caixa para ilustrar a diferença entre dois níveis de um fator.
A maneira como o ggplot processou o gráfico da caixa foi satisfatória, mas um pouco simplista (primeiro gráfico abaixo). Enquanto pesquisava as características das caixas, comecei a experimentar entalhes.
Entendo que os entalhes exibem o IC em torno da mediana e que, se os entalhes de duas caixas não se sobrepuserem, haverá uma 'forte evidência' - com um nível de confiança de 95% - de que as medianas diferem.
No meu caso (segundo gráfico), os entalhes não se sobrepõem significativamente. Mas por que a parte inferior da caixa no lado direito assume essa forma estranha?
Plotar os mesmos dados em um gráfico de violino não indicava nada de incomum na densidade de probabilidade do violino correspondente.
ggplot2
. Também gosto da ideia de plotar os pontos de dados individuais, mas isso fica frustrado na medida em que os pontos dentro da caixa escura ficam invisíveis.Respostas:
Indica que o percentil 25 é de cerca de 21, o percentil 75 de cerca de 30,5. E os limites inferior e superior do entalhe são cerca de 18 e 27.
Um motivo comum é que sua distribuição está inclinada ou o tamanho da amostra é baixo. O limite do entalhe é baseado em:
Se a distância entre a mediana e o percentil 25 e a distância entre a mediana e o percentil 75 forem extremamente diferentes (como a da direita) e / ou o tamanho da amostra for baixo, o entalhe será maior. Se for amplo o suficiente para que o limite do entalhe seja mais extremo que os percentis 25 e 75 (também conhecido como caixa), o gráfico da caixa entalhada exibirá essa forma "de dentro para fora".
fonte