Tenho experiência em economia e, geralmente, na disciplina, as estatísticas resumidas das variáveis são relatadas em uma tabela. No entanto, desejo traçá-los.
Eu poderia modificar um gráfico de caixas para permitir que ele exibisse a média, desvio padrão, mínimo e máximo, mas não desejo fazer isso, pois os gráficos de caixas são tradicionalmente usados para exibir medianas e Q1 e Q3.
Todas as minhas variáveis têm escalas diferentes. Seria ótimo se alguém pudesse sugerir uma maneira significativa pela qual eu pudesse traçar essas estatísticas resumidas. Eu posso trabalhar com R ou Stata.
r
data-visualization
boxplot
Ridhima
fonte
fonte
R
comandos, esta pergunta está fora de tópico aqui. Mas parece que você está perguntando principalmente sobre como seria um bom enredo e, secundariamente, sobre como criá-lo. Nesse caso, sugiro excluir "com R" do seu título e talvez indicar, no corpo, que você temR
disponível.Respostas:
Há uma razão pela qual o boxplot de Tukey é universal, pode ser aplicado a dados derivados de diferentes distribuições, de Gaussian a Poisson, etc. Mediana, MAD (desvio absoluto médio) ou IQR (intervalo interquartil) são medidas mais robustas quando os dados se desviam de normalidade. No entanto, média e DP são mais propensas a discrepâncias e devem ser interpretadas com relação à distribuição subjacente. A solução abaixo é mais adequada para dados normais ou log-normais. Você pode navegar por uma seleção de medidas robustas aqui e explorar o pacote WRS R aqui .
Além disso, adicionando
+ geom_jitter()
ou+ geom_point()
ao código acima, você pode visualizar simultaneamente os valores dos dados brutos.Agradecemos a @Roland por apontar a trama do violino . Tem uma vantagem em visualizar a densidade de probabilidade ao mesmo tempo que a estatística resumida:
Ambos os exemplos são mostrados abaixo.
fonte
Existem inúmeras possibilidades.
Uma opção que eu vi usada que evita confusão com boxplots (supondo que você tenha medianas ou dados originais disponíveis) é plotar um boxplot e adicionar um símbolo que marque a média (espero que com uma legenda para tornar isso explícito). Esta versão do boxplot que adiciona um marcador para a média é mencionada, por exemplo, em Frigge et al (1989) [1]:
O gráfico esquerdo mostra um símbolo + como marcador médio e o gráfico direito usa um triângulo na borda, adaptando o marcador médio do gráfico de vigas e fulcro de Doane & Tracy [2].
Veja também este post SO e este
Se você não tiver (ou realmente não quiser mostrar) a mediana, será necessário um novo gráfico e, em seguida, seria bom que fosse visualmente distinto de um boxplot.
Talvez algo parecido com isto:
... que plota o mínimo, máximo, média e média sd para cada amostra usando símbolos diferentes e depois desenha um retângulo, ou talvez melhor, algo como isto:±
... que plota o mínimo, o máximo, a média e a média sd para cada amostra usando símbolos diferentes e desenha uma linha (na verdade, atualmente é na verdade um retângulo como antes, mas estreito; ele deve ser alterado para desenhar um linha)±
Se seus números estiverem em escalas muito diferentes, mas todos positivos, considere trabalhar com logs ou faça pequenos múltiplos com escalas diferentes (mas claramente marcadas)
Código (atualmente não é um código particularmente "legal", mas no momento isso está apenas explorando idéias, não é um tutorial sobre como escrever um bom código R):
[1] Frigge, M., DC Hoaglin e B. Iglewicz (1989),
"Some implementations of the box plot".
American Statistician , 43 (fev): 50-54.
[2] Doane DP e RL Tracy (2000),
"Utilizando telas de feixe e fulcro para explorar dados"
American Statistician , 54 (4): 289-290, novembro
fonte