Os usuários geralmente são tentados a quebrar os valores dos eixos para apresentar dados de diferentes ordens de magnitude no mesmo gráfico (veja aqui ). Embora isso possa ser conveniente, nem sempre é a maneira preferida de exibir os dados (pode ser enganosa, na melhor das hipóteses). Quais são as formas alternativas de exibir os dados que são diferentes em várias ordens de magnitude?
Posso pensar em duas maneiras: transformar os dados em log ou usar gráficos de treliça. Quais são as outras opções?
data-visualization
logarithm
Roman Luštrik
fonte
fonte
Respostas:
Eu sou muito cauteloso ao usar eixos logarítmicos em gráficos de barras . O problema é que você precisa escolher um ponto de partida do eixo, e isso quase sempre é arbitrário. Você pode optar por fazer duas barras terem alturas muito diferentes, ou quase a mesma altura, apenas alterando o valor mínimo no eixo. Todos esses três gráficos plotam os mesmos dados:
Uma alternativa aos eixos descontínuos, que ninguém mencionou ainda, é simplesmente mostrar uma tabela de valores. Em muitos casos, as tabelas são mais fáceis de entender do que os gráficos.
fonte
Algumas idéias adicionais:
(1) Você não precisa se limitar a uma transformação logarítmica. Pesquise neste site a tag "transformação de dados", por exemplo. Alguns dados se prestam bem a certas transformações, como uma raiz ou um logit. (Tais transformações - inclusive logs - geralmente devem ser evitadas ao publicar gráficos para um público não técnico. Por outro lado, podem ser excelentes ferramentas para visualizar padrões nos dados.)
(2) Você pode emprestar uma técnica cartográfica padrão para inserir um detalhe de um gráfico dentro ou ao lado dele. Especificamente, você plotaria os valores extremos por si mesmos em um gráfico e todos (ou o restante) dos dados em outro com um intervalo de eixos mais limitado e, em seguida, organizaria graficamente os dois junto com as indicações (visuais e / ou escritas) do relacionamento. entre eles. Pense em um mapa dos EUA no qual o Alasca e o Havaí estão inseridos em diferentes escalas. (Isso não funciona com todos os tipos de gráficos, mas pode ser eficaz com os gráficos de barras da sua ilustração.) [Vejo que isso é semelhante à resposta recente do mbq.]
(3) Você pode mostrar a plotagem quebrada lado a lado com a mesma plotagem em eixos não quebrados.
(4) No caso do seu exemplo de gráfico de barras, escolha um eixo vertical adequado (talvez extremamente esticado) e forneça um utilitário de panorâmica. [Isso é mais um truque do que uma técnica genuinamente útil, IMHO, mas pode ser útil em alguns casos especiais.]
(5) Selecione um esquema diferente para exibir os dados. Em vez de um gráfico de barras que usa comprimento para representar valores, escolha um gráfico no qual as áreas dos símbolos representem os valores, por exemplo. [Obviamente, trade-offs estão envolvidos aqui.]
Sua escolha da técnica provavelmente dependerá do objetivo do gráfico: os gráficos criados para a exploração de dados geralmente diferem dos gráficos para o público em geral, por exemplo.
fonte
Talvez possa ser classificado como treliça, mas vou tentar; plote todas as barras dimensionadas para a mais alta em um painel e coloque outro painel mostrando o zoom nas inferiores. Eu usei essa técnica uma vez no caso de um gráfico de dispersão, e o resultado foi bastante agradável.
fonte
Eu separaria o problema dos eixos de log do problema dos gráficos de barras.
Os gráficos de barras nunca poderão ser sensíveis se não houver uma origem sensível e fixa que assuma o papel de um controle (linha de base, em branco). Mas isso não tem nada a ver com os eixos de log.
O único uso regular que tenho para gráficos de barras são os histogramas. Mas eu poderia imaginar que eles fazem bem em mostrar a diferença para essa origem (você também vê imediatamente se a diferença é positiva ou negativa). Como as barras representam uma área, costumo pensar em gráficos de barras como uma versão muito discreta da área sob uma curva. Ou seja, o eixo x deve ter um significado métrico (que pode ser o caso do tempo, mas não das cidades).
Se eu me perguntasse qual a origem a ser usada no log de algo que tinha uma origem "natural" em 0, eu recuaria e pensaria um pouco sobre o que está acontecendo. Muitas vezes, esses problemas são apenas um indicador de que o log não é uma transformação sensata aqui.
Agora, um gráfico de barras com eixos de log enfatizaria aumentos ou diminuições que ocorrem em múltiplos. Exemplos sensatos nos quais posso pensar agora têm alguma relação linear com um valor de interesse. Mas talvez alguém encontre um bom exemplo.
Então, acho que a transformação de dados deve ser sensata com relação ao significado dos dados em questão. É o caso das unidades físico-químicas que mencionei acima (A é proporcional às concentrações e o pH tem, por exemplo, uma relação linear com a tensão em um medidor de pH). De fato, é tanto assim que a unidade de log recebe um novo nome e é usada de maneira linear.
Por fim, mas não menos importante, venho da espectroscopia vibracional, onde eixos quebrados são usados com bastante regularidade. E considero esse uso um dos poucos exemplos em que a quebra dos eixos não engana. No entanto, não temos mudanças na ordem de magnitude. Temos apenas uma região não informativa de 30 a 40% do nosso intervalo x: Aqui está um exemplo: Para esta amostra, a parte entre 1800 - 2800 / cm não pode conter nenhuma informação útil.
A faixa espectral não informativa é, portanto, removida (o que também indica as faixas espectrais que realmente usamos para modelagem quimiométrica):
Mas, para a interpretação dos dados, precisamos de leituras precisas da posição x. Mas geralmente não precisamos de múltiplos que abrangem os diferentes intervalos (ou seja, existem tais relações, mas a maioria das conexões é mais complicada. Por exemplo: Sinal a 3050 / cm, portanto, temos substância insaturada ou aromática. Mas nenhum sinal forte a 1000 / cm , portanto, não há anel aromático mono, meta nem anel aromático substituído com 1,3,5 ...)
Portanto, é melhor descrever x em uma escala maior (na verdade, geralmente usamos guias de folhas milimétricas ou rotulamos os locais exatos). Então, quebramos o eixo e obtemos uma escala x maior:
Na verdade, é muito parecido com facetas:
mas o IMHO do eixo quebrado enfatiza que a escala do eixo x em ambas as partes é a mesma. Ou seja, os intervalos nas regiões plotadas são os mesmos.
Para enfatizar pequenas intensidades (eixo y), usamos inserções ampliadas:
[ ... Para detalhes, consulte a região ampliada (x 20) νCH em azul .... ]
E isso certamente é possível com o exemplo também nos gráficos vinculados.
fonte
Duas idéias que foram mencionadas, mas não explicitamente descritas, quando examinei as excelentes respostas e comentários, foram que você está usando um gráfico de barras "de maneira inconsistente com a rotulagem" e dados normalizados / sem dimensão.
Tipo de parcela:
O gráfico em estilo estrela / aranha / radar (link) (link) geralmente é muito bom para comparar várias coisas diferentes em várias coordenadas. Existem várias tramas muito úteis que (infelizmente) são raras nas apresentações de negócios, provavelmente porque a liderança prefere usar conclusões para tomar decisões, em vez de usar informações para obter entendimento e depois usá-lo para tomar as decisões. Nos negócios, às vezes é muito difícil criar consenso e, portanto, a abordagem somente para resultados pode ter um rendimento maior em um ambiente de consenso, primeiro e próxima decisão. Isso informa a popularidade do gráfico de barras / colunas. Por favor, considere os exemplos de outros tipos de gráficos que são bons para obter entendimento (link) .
Transformação:
Se você dividir os valores que você está desenhando por um valor "característico", poderá transformar a escala para melhorar a legibilidade sem perder informações. Os dinamistas fluidos preferem números sem dimensão devido à sua utilidade preditiva e sua elasticidade na aplicação. Eles consideram coisas como o Teorema de Buckingham Pi como fontes para formulários sem dimensão candidatos (link) . Os números populares e úteis, sem dimensão incluem Número de Reynolds, Número Mach, Número Biot, Número Grashof, Pi, Número Raleigh, Número Stokes e Número Sherwood. (ligação) Você não precisa ser físico para amar números sem dimensões, porque eles são úteis em aplicações não-físicas. Medidas como densidade, homogeneidade, circularidade e coplanaridade podem definir imagens, campos de pixels ou distribuições de probabilidade multivariadas. Não considere apenas usar um logaritmo ou uma distância relativa de um valor conhecido - você também pode inverter os números, tomando suas raízes quadradas.
Boa sorte. Por favor, deixe-nos saber como as coisas acabam.
fonte
A solução de eixo quebrado funciona melhor quando há uma quebra clara do gráfico e a ordenada é rotulada para que a lacuna seja óbvia. A vantagem disso é que a escala é preservada nos dois conjuntos de valores. Gráficos de painel com escalas diferentes podem não transmitir a variação relativa nos grupos baixo e alto. Gosto da ideia do gráfico de ampliação, que programei para gráficos de dispersão, mas não pensei em usar para gráficos de barras.
fonte