Eu poderia usar algumas orientações sobre a apresentação de alguns dados.
Este primeiro gráfico é uma comparação caso-controle para a citocina IL-10. Eu configurei manualmente o eixo y para incluir 99% dos dados.
A razão pela qual eu defino isso manualmente é porque o grupo de casos tem uma discrepância extrema.
Meus colaboradores hesitam em executar uma remoção mais externa do nosso conjunto de dados. Eu estou bem com isso, mas eles preferem não. Essa seria a solução óbvia. Mas se eu vou manter todos os dados e não removê-los, como posso apresentar esse boxplot de maneira ideal? Dividir eixo? É aceitável usar apenas o primeiro gráfico e observe que ele foi construído para incluir todos os dados? (Esta opção me parece desonesta). Qualquer conselho seria ótimo.
Respostas:
Eu diria que, com dados como esses, você realmente precisa mostrar resultados em uma escala transformada. Esse é o primeiro imperativo e uma questão mais importante do que precisamente como desenhar um gráfico de caixa.
Mas eco a Frank Harrell ao insistir em algo mais informativo do que um enredo mínimo, mesmo com alguns pontos extremos identificados. Você tem espaço suficiente para mostrar muito mais informações. Aqui está um dos muitos exemplos, uma caixa híbrida e um gráfico quantil. Como nos seus dados, há dois grupos sendo comparados.
Vou pegar esses dois pontos um por um e dizer mais.
Escala transformada
No caso mais simples, todos os seus valores podem ser positivos e você deve primeiro tentar usar uma escala logarítmica.
Se você tiver zeros exatos, uma raiz quadrada ou uma escala de raiz de cubo ainda melhorará a assimetria extrema. Algumas pessoas estão satisfeitas com o log (valor + constante), onde constante é mais comumente 1, como uma maneira de lidar com zeros.
As implicações para gráficos de caixa do uso de uma escala transformada são sutis.
Se você usar a convenção comum de Tukey de mostrar individualmente todos os pontos além do quartil superior + 1,5 IQR ou quartil inferior - 1,5 IQR, então esses limites devem ser calculados na escala transformada. Isso não é o mesmo que calcular esses limites na escala original e depois transformar.
Em vez disso, eu apoiaria o que parece ainda ser uma convenção minoritária de seleção de quantis para fins de bigodes. Uma das várias vantagens disso é que a transformação de quantil = quantil de transformação, na maioria dos casos, pelo menos o suficiente para propósitos gráficos. (As letras pequenas são sempre que quantis são calculados por interpolação linear entre estatísticas de pedidos adjacentes.)
Essa convenção quantil foi sugerida com bastante destaque por Cleveland (1985). Para o registro, plotagens de caixas aprimoradas com caixas para quartis, caixas mais finas para oceanos externos (12,5 e 87,5% pontos) e plotagens de dados de tira foram usadas em geografia e climatologia por (por exemplo, Matthews (1936) e Grove (1956), sob o nome "diagramas de dispersão".
Mais do que caixas
As parcelas foram reinventadas por Tukey por volta de 1970 e mais visivelmente promovidas em seu livro de 1977. Grande parte de seu objetivo era promover gráficos que pudessem ser rapidamente desenhados usando caneta (cil) e papel na exploração informal. Ele também estava sugerindo maneiras de identificar possíveis discrepâncias. Tudo bem, mas agora todos temos acesso a computadores, não é difícil desenhar gráficos mostrando, se não todos os dados, pelo menos muito mais detalhes. O papel resumido dos gráficos de caixa é valioso, mas um gráfico também pode mostrar a estrutura fina, caso seja interessante ou importante. (E o que os pesquisadores acham desinteressante ou sem importância pode ser mais impressionante para seus leitores.)
Há muito espaço para discordâncias educadas sobre exatamente o que funciona melhor, mas, na minha opinião, os lotes vazios foram um pouco exagerados.
Os usuários do Stata podem encontrar mais informações sobre o programa que chamou a figura neste post estatalista . Os usuários de outro software não devem ter dificuldade em desenhar algo tão bom ou melhor (caso contrário, por que usar esse software?).
Cleveland, WS 1985. Elementos dos dados gráficos. Monterey, CA: Wadsworth.
Grove, AT 1956. Erosão do solo na Nigéria. In Steel, RW e Fisher, CA (Eds) Ensaios geográficos em terras tropicais britânicas. Londres: George Philip, 79-111.
Matthews, HA 1936. Uma nova visão de algumas chuvas familiares indianas. Revista Geográfica Escocesa 52: 84-97.
Tukey, JW 1977. Análise exploratória de dados. Reading, MA: Addison-Wesley.
fonte
Para não tirar nada da excelente resposta de Nick, que acho que vale muito a pena ser votada - mas eu queria explorar algumas possibilidades.
Com esses dados altamente distorcidos em várias ordens de magnitude, a plotagem em escala de log geralmente é bastante reveladora; observe que você ainda pode ter marcas e rótulos nos valores originais. (Eu concordo com os pontos de Nick relacionados a transformações, por isso não vou me aprofundar mais nisso.)
Outra opção além da transformação é fazer algo como o seu segundo gráfico, mas incluir uma indicação de todos os valores não plotados:
Dessa forma, você não está removendo valores discrepantes, apenas exibindo-os de maneira diferente.
No entanto, eu juntaria Frank e Nick ao sugerir o uso de uma exibição mais informativa do que um boxplot simples - a combinação de um boxplot com plot quantil no post de Nick parece uma noção particularmente boa, embora se possa traçar o plot quantil levemente sobre (ou sob , como aqui) a caixa correspondente em vez de ao lado:
Se você não está fazendo algo assim (digamos apenas um gráfico de caixa simples), sugiro caixas substancialmente mais estreitas.
fonte
points
para exibir os valores quantílicos (parece algo parecido com oxs=sort(x); points(ppoints(xs),xs)
após o boxplot, mas, examinando atentamente, os pontos estão abaixo do boxplot; portanto, pode ter sido plotado e, em seguida, boxplot com add = TRUE ou pode ter sido boxplot, então aponta e boxplot por cima ... talvezPrefiro tramas estendidas de caixas ou tramas de violino, porque elas contêm muito mais informações. Escalo gráficos de caixas estendidas para os quantis 0,01 e 0,99 das amostras combinadas. Consulte http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf para obter detalhes.
fonte