Estou escrevendo minha tese de doutorado e percebi que confio excessivamente em gráficos de caixas para comparar distribuições. Quais outras alternativas você gosta para realizar essa tarefa?
Também gostaria de perguntar se você conhece algum outro recurso, como a galeria R, na qual eu possa me inspirar com diferentes idéias sobre visualização de dados.
r
distributions
data-visualization
boxplot
relative-distribution
pedrosaurio
fonte
fonte
hist
; densidades suavizadasdensity
; Plotagens de QQqqplot
; parcelas de caule e folhas (um pouco antigas)stem
. Além disso, o teste de Kolmogorov-Smirnov pode ser um bom complementoks.test
.Respostas:
Vou elaborar meu comentário, conforme sugerido por @gung. Também incluirei o enredo de violino sugerido por @Alexander, para ser completo. Algumas dessas ferramentas podem ser usadas para comparar mais de duas amostras.
Eu espero que isso ajude.
fonte
Depois de explorar um pouco mais sobre suas sugestões, encontrei esse tipo de complemento para complementar a resposta do @Procastinator. É chamado de 'enxame de abelhas' e é uma mistura de trama de caixa com trama de violino com o mesmo nível de detalhe que a trama de dispersão.
pacote beeswarm R
fonte
beanplot
.Uma nota:
Você deseja responder perguntas sobre seus dados e não criar perguntas sobre o próprio método de visualização. Muitas vezes, chato é melhor. Também facilita a comparação de comparações.
Uma resposta:
A necessidade de formatação simples além do pacote base de R provavelmente explica a popularidade do pacote ggplot de Hadley em R.
Finalmente, descobri que adicionar um plano de fundo simples ajuda. Foi por isso que escrevi "bgfun", que pode ser chamado por panel.first
fonte
alpha=0.5
ao primeiro gráfico (ageom_density()
) para que as partes sobrepostas não fiquem ocultas.Aqui está um bom tutorial do blog Flowing Data, de Nathan Yau, usando dados de criminalidade em nível estadual e norte-americano. Isto mostra:
Ultimamente, vejo-me plotando CDFs muito mais que histogramas.
fonte
Existe um conceito especificamente para comparar distribuições, que deve ser mais conhecido: a distribuição relativa.
Definir
Vamos ver um exemplo. O site http://www.math.hope.edu/swanson/data/cellphone.txt fornece dados sobre a duração da última ligação telefônica de estudantes do sexo masculino e feminino. Vamos expressar a distribuição da duração da ligação telefônica para estudantes do sexo masculino, tendo como referência as estudantes do sexo feminino.
Podemos ver imediatamente que os homens (nesta turma da faculdade ...) tendem a ter ligações telefônicas mais curtas que as mulheres ... e isso é expresso diretamente, de uma maneira muito direta. Nox são mostradas as proporções na distribuição das mulheres, e podemos ler que, por exemplo, durante o tempo T (seja o que for, seu valor não é mostrado), de modo que 20% das chamadas de mulheres foram menores (ou iguais) a isso, a densidade relativa dos homens nesse intervalo varia entre 1,3 e 1,4. Se aproximarmos (mentalmente do gráfico) a densidade relativa média nesse intervalo como 1,35, veremos que a proporção de homens nesse intervalo é cerca de 35% maior que a proporção de mulheres. Isso corresponde a 27% dos homens nesse intervalo.
Também podemos fazer o mesmo gráfico com intervalos de confiança pontuais em torno da curva de densidade relativa:
As amplas faixas de confiança nesse caso refletem o pequeno tamanho da amostra.
Há um livro sobre esse método: Handcock
O código R para o gráfico está aqui:
Para o último gráfico, mude para:
Observe que as parcelas são produzidas com o uso da estimativa da densidade do kernel, com o grau de suavidade escolhido via gcv (validação cruzada generalizada).
Mais alguns detalhes sobre a densidade relativa. DeixeiQ0 0 ser a função quantil correspondente a F0 0 . Deixeir ser um quantil de R com yr o valor correspondente na escala de medição original. Então a densidade relativa pode ser escrita como
fonte
Eu gosto de apenas estimar as densidades e plotá-las,
fonte