Como determinar se o eixo y de um gráfico deve começar em zero?

45

Uma maneira comum de "se deitar com os dados" é usar uma escala do eixo y que faz parecer que as mudanças são mais significativas do que realmente são.

Quando analiso publicações científicas ou relatórios de laboratório dos alunos, muitas vezes fico frustrado com esse "pecado de visualização de dados" (que acredito que os autores cometem sem querer, mas ainda resulta em uma apresentação enganosa).

No entanto, "sempre inicie o eixo y no zero" não é uma regra rígida. Por exemplo, Edward Tufte ressalta que, em uma série temporal, a linha de base não é necessariamente zero:

Em geral, em uma série temporal, use uma linha de base que mostre os dados e não o ponto zero. Se o ponto zero ocorrer razoavelmente na plotagem dos dados, tudo bem. Mas não gaste muito espaço vertical vazio tentando chegar ao ponto zero com o custo de ocultar o que está acontecendo na própria linha de dados. (O livro Como mentir com as estatísticas está errado neste ponto.)

Por exemplo, em todo o lugar, com zero pontos ausentes em séries temporais, dê uma olhada em qualquer publicação de pesquisa científica importante. Os cientistas querem mostrar seus dados, não zero.

A necessidade de contextualizar os dados é boa, mas o contexto não vem do espaço vertical vazio, chegando a zero, um número que nem ocorre em muitos conjuntos de dados. Em vez disso, por contexto, mostre mais dados horizontalmente!

Quero apontar uma apresentação enganosa nos artigos que analiso, mas não quero ser um purista do eixo y zero.

Existem diretrizes que abordem quando iniciar o eixo y em zero e quando isso for desnecessário e / ou inadequado? (Especialmente no contexto do trabalho acadêmico.)

ff524
fonte
3
Penso que a inclusão ou não de 0 é potencialmente enganosa depende criticamente da história que está sendo contada.
gung - Restabelece Monica
2
Em uma palestra, a frase "observe o zero altamente suprimido" ou similar pode ser usada para trazer honestidade a uma figura potencialmente enganosa. Eu não estou tão feliz com isso no material impresso, mas em uma pitada você pode usá-lo lá também.
dmckee
Para evitar tudo isso, estou usando boxplots sempre que possível. Não há necessidade de calcular as médias e as barras de erro e ele contém informações valiosas (por exemplo, distribuição de dados, propagação, assimetria, alcance), tudo em um gráfico. Além disso, você está mostrando os dados brutos.
Stefan
y=0 0
@NickCox obrigado pelo seu comentário! Concordo que, após a ANOVA, mostrar meios e barras de erro faz mais sentido. No entanto, antes de executar qualquer análise, acho que os boxplots são mais informativos e fornecem informações sobre a aparência de seus dados e se a ANOVA escolhida pode ou não ser apropriada. "Mentir com dados" já pode ocorrer quando, por exemplo, testes paramétricos são escolhidos, mas os dados não atendem às premissas necessárias. Portanto, para mim, como leitor de estudos científicos, sempre gosto de ver gráficos de caixa para me decidir sobre os resultados apresentados.
Stefan

Respostas:

40
  • Não use espaço em um gráfico de maneira que não ajude a entender. É necessário espaço para mostrar os dados!

  • Use seu julgamento científico (engenharia, medicina, social, negócios, ...), bem como seu julgamento estatístico. (Se você não é o cliente ou o cliente, converse com alguém da área para ter uma idéia do que é interessante ou importante, de preferência aqueles que encomendam a análise.)

  • y

Essas são três regras simples. (Nada exclui alguma tensão entre eles na ocasião.)

Aqui está um exemplo simples, mas surgem os três pontos: você mede a temperatura corporal de um paciente em graus Celsius, Fahrenheit ou mesmo em Kelvin: faça a sua escolha. Em que sentido é útil ou mesmo lógico insistir em mostrar temperaturas zero? Informações importantes, mesmo que sejam cruciais em termos médicos ou fisiológicos, serão ocultadas de outra forma.

Aqui está uma história verdadeira de uma apresentação. Um pesquisador estava mostrando dados sobre proporções de sexo para vários estados e territórios da união na Índia. O gráfico era um gráfico de barras com todas as barras começando em zero. Todas as barras tinham o mesmo comprimento, apesar de algumas variações consideráveis. Isso estava correto, mas a história interessante era que as áreas eram diferentes apesar das semelhanças, não que elas fossem semelhantes apesar das diferenças. Sugeri que a paridade entre homens e mulheres (1 ou 100 mulheres / 100 homens) era um nível de referência muito mais natural. (Eu também estaria aberto a usar algum nível geral, como a média nacional, como referência.) Mesmo algumas pessoas estatísticas que ouviram essa pequena história às vezes responderam: "Não; as barras devem sempre começar do zero". Para mim, isso não é melhor do que dogmas irrelevantes nesse caso.

yy

Um tipo comum de plotagem, especialmente parece em algumas ciências biológicas e médicas, mostra meios ou outros resumos por barras grossas começando em zero e erro padrão ou intervalos baseados em desvio padrão indicando incerteza por barras finas. Essas parcelas de detonador ou dinamite, como foram chamadas por aqueles que desaprovam, podem ser populares em parte por causa de um ditado que indica que zero sempre deve ser mostrado. O efeito líquido é enfatizar comparações com zero que geralmente não têm interesse ou utilidade.

Algumas pessoas gostariam de mostrar zero, mas também adicionar uma quebra de escala para mostrar que a escala está interrompida. Modas mudam e mudanças tecnológicas. Décadas atrás, quando os pesquisadores desenhavam seus próprios gráficos ou delegavam a tarefa aos técnicos, era mais fácil pedir que isso fosse feito à mão. Agora, os programas gráficos geralmente não suportam quebras de escala, o que eu acho que não é perda. Mesmo se o fizerem, é uma adição exigente que pode desperdiçar uma fração moderada da área do gráfico.

x eixo . Por que não? Se você mostrar flutuações climáticas ou econômicas nos últimos cem anos, seria bizarro saber que a escala deveria começar no limite do BC / CE ou em qualquer outra origem.

Naturalmente, existe uma regra zero que se aplica além das três mencionadas.

  • Faça o que fizer, seja muito claro. Rotule seus eixos de maneira consistente e informativa. Então confie que leitores cuidadosos procurarão ver o que você fez.

Portanto, neste ponto, concordo plenamente com Edward Tufte e discordo de Darrell Huff.

EDIT 9 de maio de 2016:

em vez de tentar incluir invariavelmente uma linha de base 0 em todos os seus gráficos, use linhas de base lógicas e significativas , em vez

Cairo, A. 2016. A arte verdadeira: dados, gráficos e mapas de comunicação. San Francisco, CA: New Riders, p.136.

Nick Cox
fonte
7
Como um aparte disso: acho que as pessoas são mais propensas a aderir dogmaticamente com "iniciar do zero" quando os dados são representados por barras, com o argumento de que as barras mostram área e área é enganosa se não começar do zero. Em um gráfico de pontos de Cleveland - que geralmente é uma visualização mais adequada - não parece haver um argumento tão convincente para começar do zero, e as pessoas parecem mais dispostas a ser flexíveis quanto ao ponto de partida.
Silverfish
4
Ótima resposta. Fiz essa pergunta no contexto da revisão de um artigo que consistentemente usava faixas de eixos inapropriadas (enfatizando variações insignificantes nos dados). Essa resposta me fez perceber que eu estava realmente frustrado com a falta de julgamento (estatístico e de engenharia) na compreensão e interpretação dos dados - algo muito mais construtivo para comentar em uma revisão do que reclamar sobre a faixa de eixos.
Ff524
4
A regra sobre iniciar o eixo em zero só faz sentido pensar em variáveis ​​contínuas que são razão, portanto zero tem um significado real. Um peso 0 não é peso. Etc. Mas as temperaturas em C ou F usam valores arbitrários para zero, então não faz sentido sequer pensar em iniciar o eixo lá.
Harvey Motulsky
2
3
Legal, mas eu gostaria de ressaltar que o ponto de "julgamento" depende da audiência (a audiência sempre importa!). O público técnico lerá o eixo e entenderá os implicados. Uma certa fração da população leiga ignorará determinadamente os rótulos dos eixos e tirará conclusões da forma do gráfico sob suposições potencialmente incorretas sobre a escala. Se o gráfico é destinado a um público leigo, você deve levar isso em consideração.
dmckee