Uma maneira comum de "se deitar com os dados" é usar uma escala do eixo y que faz parecer que as mudanças são mais significativas do que realmente são.
Quando analiso publicações científicas ou relatórios de laboratório dos alunos, muitas vezes fico frustrado com esse "pecado de visualização de dados" (que acredito que os autores cometem sem querer, mas ainda resulta em uma apresentação enganosa).
No entanto, "sempre inicie o eixo y no zero" não é uma regra rígida. Por exemplo, Edward Tufte ressalta que, em uma série temporal, a linha de base não é necessariamente zero:
Em geral, em uma série temporal, use uma linha de base que mostre os dados e não o ponto zero. Se o ponto zero ocorrer razoavelmente na plotagem dos dados, tudo bem. Mas não gaste muito espaço vertical vazio tentando chegar ao ponto zero com o custo de ocultar o que está acontecendo na própria linha de dados. (O livro Como mentir com as estatísticas está errado neste ponto.)
Por exemplo, em todo o lugar, com zero pontos ausentes em séries temporais, dê uma olhada em qualquer publicação de pesquisa científica importante. Os cientistas querem mostrar seus dados, não zero.
A necessidade de contextualizar os dados é boa, mas o contexto não vem do espaço vertical vazio, chegando a zero, um número que nem ocorre em muitos conjuntos de dados. Em vez disso, por contexto, mostre mais dados horizontalmente!
Quero apontar uma apresentação enganosa nos artigos que analiso, mas não quero ser um purista do eixo y zero.
Existem diretrizes que abordem quando iniciar o eixo y em zero e quando isso for desnecessário e / ou inadequado? (Especialmente no contexto do trabalho acadêmico.)
fonte
Respostas:
Não use espaço em um gráfico de maneira que não ajude a entender. É necessário espaço para mostrar os dados!
Use seu julgamento científico (engenharia, medicina, social, negócios, ...), bem como seu julgamento estatístico. (Se você não é o cliente ou o cliente, converse com alguém da área para ter uma idéia do que é interessante ou importante, de preferência aqueles que encomendam a análise.)
Essas são três regras simples. (Nada exclui alguma tensão entre eles na ocasião.)
Aqui está um exemplo simples, mas surgem os três pontos: você mede a temperatura corporal de um paciente em graus Celsius, Fahrenheit ou mesmo em Kelvin: faça a sua escolha. Em que sentido é útil ou mesmo lógico insistir em mostrar temperaturas zero? Informações importantes, mesmo que sejam cruciais em termos médicos ou fisiológicos, serão ocultadas de outra forma.
Aqui está uma história verdadeira de uma apresentação. Um pesquisador estava mostrando dados sobre proporções de sexo para vários estados e territórios da união na Índia. O gráfico era um gráfico de barras com todas as barras começando em zero. Todas as barras tinham o mesmo comprimento, apesar de algumas variações consideráveis. Isso estava correto, mas a história interessante era que as áreas eram diferentes apesar das semelhanças, não que elas fossem semelhantes apesar das diferenças. Sugeri que a paridade entre homens e mulheres (1 ou 100 mulheres / 100 homens) era um nível de referência muito mais natural. (Eu também estaria aberto a usar algum nível geral, como a média nacional, como referência.) Mesmo algumas pessoas estatísticas que ouviram essa pequena história às vezes responderam: "Não; as barras devem sempre começar do zero". Para mim, isso não é melhor do que dogmas irrelevantes nesse caso.
Um tipo comum de plotagem, especialmente parece em algumas ciências biológicas e médicas, mostra meios ou outros resumos por barras grossas começando em zero e erro padrão ou intervalos baseados em desvio padrão indicando incerteza por barras finas. Essas parcelas de detonador ou dinamite, como foram chamadas por aqueles que desaprovam, podem ser populares em parte por causa de um ditado que indica que zero sempre deve ser mostrado. O efeito líquido é enfatizar comparações com zero que geralmente não têm interesse ou utilidade.
Algumas pessoas gostariam de mostrar zero, mas também adicionar uma quebra de escala para mostrar que a escala está interrompida. Modas mudam e mudanças tecnológicas. Décadas atrás, quando os pesquisadores desenhavam seus próprios gráficos ou delegavam a tarefa aos técnicos, era mais fácil pedir que isso fosse feito à mão. Agora, os programas gráficos geralmente não suportam quebras de escala, o que eu acho que não é perda. Mesmo se o fizerem, é uma adição exigente que pode desperdiçar uma fração moderada da área do gráfico.
Naturalmente, existe uma regra zero que se aplica além das três mencionadas.
Portanto, neste ponto, concordo plenamente com Edward Tufte e discordo de Darrell Huff.
EDIT 9 de maio de 2016:
Cairo, A. 2016. A arte verdadeira: dados, gráficos e mapas de comunicação. San Francisco, CA: New Riders, p.136.
fonte