Digamos que tenho duas distribuições que quero comparar em detalhes, ou seja, de uma maneira que torne a forma, a escala e a mudança facilmente visíveis. Uma boa maneira de fazer isso é plotar um histograma para cada distribuição, colocá-los na mesma escala X e empilhar um embaixo do outro.
Ao fazer isso, como o binning deve ser feito? Os dois histogramas devem usar os mesmos limites de compartimento, mesmo que uma distribuição seja muito mais dispersa que a outra, como na Imagem 1 abaixo? A divisão deve ser feita independentemente para cada histograma antes do zoom, como na Imagem 2 abaixo? Existe mesmo uma boa regra de ouro nisso?
data-visualization
histogram
pdf
binning
dsimcha
fonte
fonte
Respostas:
Eu acho que você precisa usar as mesmas caixas. Caso contrário, a mente prega peças em você. Normal (0,2) parece mais disperso em relação a Normal (0,1) na Imagem 2 do que na Imagem 1. Nada a ver com estatísticas. Parece que Normal (0,1) fez uma "dieta".
-Ralph Winters
Os pontos finais do ponto médio e do histograma também podem alterar a percepção da dispersão. Observe que, neste applet, uma seleção máxima de posições implica um intervalo de> 1,5 - ~ 5, enquanto uma seleção mínima de posições implica um intervalo de <1 -> 5,5
http://www.stat.sc.edu/~west/javahtml/Histogram.html
fonte
Outra abordagem seria plotar as diferentes distribuições no mesmo gráfico e usar algo como o
alpha
parâmetroggplot2
para resolver os problemas de overplotting. A utilidade desse método dependerá das diferenças ou semelhanças em sua distribuição, pois elas serão plotadas com os mesmos compartimentos. Outra alternativa seria exibir curvas de densidade suavizadas para cada distribuição. Aqui está um exemplo dessas opções e as outras opções discutidas no segmento:fonte
Portanto, é uma questão de manter o mesmo tamanho de compartimento ou manter o mesmo número de compartimentos? Eu posso ver argumentos para ambos os lados. Uma solução alternativa seria padronizar os valores primeiro. Então você pode manter os dois.
fonte