Quais são as alternativas para eixos quebrados?

28

Os usuários geralmente são tentados a quebrar os valores dos eixos para apresentar dados de diferentes ordens de magnitude no mesmo gráfico (veja aqui ). Embora isso possa ser conveniente, nem sempre é a maneira preferida de exibir os dados (pode ser enganosa, na melhor das hipóteses). Quais são as formas alternativas de exibir os dados que são diferentes em várias ordens de magnitude?

Posso pensar em duas maneiras: transformar os dados em log ou usar gráficos de treliça. Quais são as outras opções?

Roman Luštrik
fonte
1
Esses guias Excel olhar muito assustador ...
5
Você pode imaginar como um tutorial sobre R se parece com uma pessoa que nunca viu uma linha de código em sua vida? :)
Roman Luštrik
3
Ok, mas também posso imaginar todas aquelas pessoas desenhando manualmente dezenas de quebras de barra no Excel e acreditando que essa é uma maneira única (e, portanto, mais fácil e rápida) de fazer isso. Ou pessoas que passam horas tentando unificar a formatação em um grande documento do Word.
1
"Pai, perdoe-os, pois eles não sabem o que estão fazendo." vem à mente. :)
Roman Luštrik
3
Banda oficial de stats.stackexchange.com: The Broken Axe.
Matt Parker

Respostas:

17

Eu sou muito cauteloso ao usar eixos logarítmicos em gráficos de barras . O problema é que você precisa escolher um ponto de partida do eixo, e isso quase sempre é arbitrário. Você pode optar por fazer duas barras terem alturas muito diferentes, ou quase a mesma altura, apenas alterando o valor mínimo no eixo. Todos esses três gráficos plotam os mesmos dados: texto alternativo

Uma alternativa aos eixos descontínuos, que ninguém mencionou ainda, é simplesmente mostrar uma tabela de valores. Em muitos casos, as tabelas são mais fáceis de entender do que os gráficos.

Harvey Motulsky
fonte
3
Esses gráficos parecem muito enganadores também porque você não possui barras de erro. Se você adicionar barras de erro, a diferença parecerá menos substancial. Ou você pode usar gráficos de caixa e bigode que evitam esse tipo de problema.
Nico 30/03
5
IMHO a origem é um problema dos gráficos de barras e não tem nada a ver com o logaritmo. Você pode obter a mesma impressão enganosa com eixos lineares.
Cbeleites suporta Monica
@cbeleites. Sim, você pode criar gráficos de barras enganosos com um eixo linear alterando a linha de base. Mas com um eixo linear, a linha de base natural é zero. Com eixos logarítmicos, na maioria dos contextos, não há linha de base natural.
Harvey Motulsky 31/03
@HarveyMotulsky: Eu imploro para discordar. Há toda uma classe de dados que é bem descrita por eixos de log e que tem uma linha de base natural: mudanças / proporções multiplicativas. No seu exemplo, talvez o sinal tratado seja 15x o sinal de controle. Se essa suposição fizer sentido para o aplicativo, você terá uma linha de base "natural" para o log. Se não, talvez outra transformação seja mais sensata?
Cbeleites suporta Monica
1
@cbeleites Concordo que, se a variável é uma proporção, então 1,0 é uma linha de base natural, mostrá-la em uma escala de log faz sentido.
Harvey Motulsky
11

Algumas idéias adicionais:

(1) Você não precisa se limitar a uma transformação logarítmica. Pesquise neste site a tag "transformação de dados", por exemplo. Alguns dados se prestam bem a certas transformações, como uma raiz ou um logit. (Tais transformações - inclusive logs - geralmente devem ser evitadas ao publicar gráficos para um público não técnico. Por outro lado, podem ser excelentes ferramentas para visualizar padrões nos dados.)

(2) Você pode emprestar uma técnica cartográfica padrão para inserir um detalhe de um gráfico dentro ou ao lado dele. Especificamente, você plotaria os valores extremos por si mesmos em um gráfico e todos (ou o restante) dos dados em outro com um intervalo de eixos mais limitado e, em seguida, organizaria graficamente os dois junto com as indicações (visuais e / ou escritas) do relacionamento. entre eles. Pense em um mapa dos EUA no qual o Alasca e o Havaí estão inseridos em diferentes escalas. (Isso não funciona com todos os tipos de gráficos, mas pode ser eficaz com os gráficos de barras da sua ilustração.) [Vejo que isso é semelhante à resposta recente do mbq.]

(3) Você pode mostrar a plotagem quebrada lado a lado com a mesma plotagem em eixos não quebrados.

(4) No caso do seu exemplo de gráfico de barras, escolha um eixo vertical adequado (talvez extremamente esticado) e forneça um utilitário de panorâmica. [Isso é mais um truque do que uma técnica genuinamente útil, IMHO, mas pode ser útil em alguns casos especiais.]

(5) Selecione um esquema diferente para exibir os dados. Em vez de um gráfico de barras que usa comprimento para representar valores, escolha um gráfico no qual as áreas dos símbolos representem os valores, por exemplo. [Obviamente, trade-offs estão envolvidos aqui.]

Sua escolha da técnica provavelmente dependerá do objetivo do gráfico: os gráficos criados para a exploração de dados geralmente diferem dos gráficos para o público em geral, por exemplo.

whuber
fonte
8

Talvez possa ser classificado como treliça, mas vou tentar; plote todas as barras dimensionadas para a mais alta em um painel e coloque outro painel mostrando o zoom nas inferiores. Eu usei essa técnica uma vez no caso de um gráfico de dispersão, e o resultado foi bastante agradável.


fonte
8

Eu separaria o problema dos eixos de log do problema dos gráficos de barras.


UMA=eugEu0 0-eugEuEu0 0

Os gráficos de barras nunca poderão ser sensíveis se não houver uma origem sensível e fixa que assuma o papel de um controle (linha de base, em branco). Mas isso não tem nada a ver com os eixos de log.
O único uso regular que tenho para gráficos de barras são os histogramas. Mas eu poderia imaginar que eles fazem bem em mostrar a diferença para essa origem (você também vê imediatamente se a diferença é positiva ou negativa). Como as barras representam uma área, costumo pensar em gráficos de barras como uma versão muito discreta da área sob uma curva. Ou seja, o eixo x deve ter um significado métrico (que pode ser o caso do tempo, mas não das cidades).

Se eu me perguntasse qual a origem a ser usada no log de algo que tinha uma origem "natural" em 0, eu recuaria e pensaria um pouco sobre o que está acontecendo. Muitas vezes, esses problemas são apenas um indicador de que o log não é uma transformação sensata aqui.

Agora, um gráfico de barras com eixos de log enfatizaria aumentos ou diminuições que ocorrem em múltiplos. Exemplos sensatos nos quais posso pensar agora têm alguma relação linear com um valor de interesse. Mas talvez alguém encontre um bom exemplo.

Então, acho que a transformação de dados deve ser sensata com relação ao significado dos dados em questão. É o caso das unidades físico-químicas que mencionei acima (A é proporcional às concentrações e o pH tem, por exemplo, uma relação linear com a tensão em um medidor de pH). De fato, é tanto assim que a unidade de log recebe um novo nome e é usada de maneira linear.

Por fim, mas não menos importante, venho da espectroscopia vibracional, onde eixos quebrados são usados ​​com bastante regularidade. E considero esse uso um dos poucos exemplos em que a quebra dos eixos não engana. No entanto, não temos mudanças na ordem de magnitude. Temos apenas uma região não informativa de 30 a 40% do nosso intervalo x: Aqui está um exemplo: espectro Para esta amostra, a parte entre 1800 - 2800 / cm não pode conter nenhuma informação útil.
A faixa espectral não informativa é, portanto, removida (o que também indica as faixas espectrais que realmente usamos para modelagem quimiométrica): peça não informativa do espectro removida

Mas, para a interpretação dos dados, precisamos de leituras precisas da posição x. Mas geralmente não precisamos de múltiplos que abrangem os diferentes intervalos (ou seja, existem tais relações, mas a maioria das conexões é mais complicada. Por exemplo: Sinal a 3050 / cm, portanto, temos substância insaturada ou aromática. Mas nenhum sinal forte a 1000 / cm , portanto, não há anel aromático mono, meta nem anel aromático substituído com 1,3,5 ...)
Portanto, é melhor descrever x em uma escala maior (na verdade, geralmente usamos guias de folhas milimétricas ou rotulamos os locais exatos). Então, quebramos o eixo e obtemos uma escala x maior: espectro - eixo quebrado

Na verdade, é muito parecido com facetas: versão facetada
mas o IMHO do eixo quebrado enfatiza que a escala do eixo x em ambas as partes é a mesma. Ou seja, os intervalos nas regiões plotadas são os mesmos.

Para enfatizar pequenas intensidades (eixo y), usamos inserções ampliadas:
insira a descrição da imagem aqui
[ ... Para detalhes, consulte a região ampliada (x 20) νCH em azul .... ]

E isso certamente é possível com o exemplo também nos gráficos vinculados.

cbeleites suporta Monica
fonte
2

Duas idéias que foram mencionadas, mas não explicitamente descritas, quando examinei as excelentes respostas e comentários, foram que você está usando um gráfico de barras "de maneira inconsistente com a rotulagem" e dados normalizados / sem dimensão.

Tipo de parcela:

O gráfico em estilo estrela / aranha / radar (link) (link) geralmente é muito bom para comparar várias coisas diferentes em várias coordenadas. Existem várias tramas muito úteis que (infelizmente) são raras nas apresentações de negócios, provavelmente porque a liderança prefere usar conclusões para tomar decisões, em vez de usar informações para obter entendimento e depois usá-lo para tomar as decisões. Nos negócios, às vezes é muito difícil criar consenso e, portanto, a abordagem somente para resultados pode ter um rendimento maior em um ambiente de consenso, primeiro e próxima decisão. Isso informa a popularidade do gráfico de barras / colunas. Por favor, considere os exemplos de outros tipos de gráficos que são bons para obter entendimento (link) .

Transformação:

Se você dividir os valores que você está desenhando por um valor "característico", poderá transformar a escala para melhorar a legibilidade sem perder informações. Os dinamistas fluidos preferem números sem dimensão devido à sua utilidade preditiva e sua elasticidade na aplicação. Eles consideram coisas como o Teorema de Buckingham Pi como fontes para formulários sem dimensão candidatos (link) . Os números populares e úteis, sem dimensão incluem Número de Reynolds, Número Mach, Número Biot, Número Grashof, Pi, Número Raleigh, Número Stokes e Número Sherwood. (ligação) Você não precisa ser físico para amar números sem dimensões, porque eles são úteis em aplicações não-físicas. Medidas como densidade, homogeneidade, circularidade e coplanaridade podem definir imagens, campos de pixels ou distribuições de probabilidade multivariadas. Não considere apenas usar um logaritmo ou uma distância relativa de um valor conhecido - você também pode inverter os números, tomando suas raízes quadradas.

Boa sorte. Por favor, deixe-nos saber como as coisas acabam.

EngrStudent - Restabelecer Monica
fonte
1
A maioria dos dados ou autoridades se opõe fortemente ao uso de gráficos de radar. Eles são difíceis de interpretar. Uma alternativa muito melhor é um gráfico de coordenadas paralelas .
9139 Jon Peltier
@ JonPeltier - Eu concordo, mas o Excel (na época em que respondi) não tinha uma maneira limpa de fazer um gráfico de coordenadas paralelo; portanto, é provável que algo que seu público esteja tendo muito esforço para compreender.
EngrStudent - Reintegrar Monica
1

A solução de eixo quebrado funciona melhor quando há uma quebra clara do gráfico e a ordenada é rotulada para que a lacuna seja óbvia. A vantagem disso é que a escala é preservada nos dois conjuntos de valores. Gráficos de painel com escalas diferentes podem não transmitir a variação relativa nos grupos baixo e alto. Gosto da ideia do gráfico de ampliação, que programei para gráficos de dispersão, mas não pensei em usar para gráficos de barras.

user4983
fonte