É errado usar gráficos de linha para dados discretos?

12

Eu sempre vi conjuntos de dados discretos plotados como gráficos de linhas, mas me ocorre que a linha infere um valor em um ponto entre os intervalos de medição que não faz sentido para conjuntos de dados discretos. É, portanto, o caso de o uso de gráficos de linha para dados discretos estar errado?

Como exemplo, pegue dois conjuntos de dados de séries temporais, um contínuo (meu peso, medido diariamente pela manhã) e um discreto (o número de donuts que eu como por dia). Faz sentido que o primeiro conjunto de dados seja um gráfico de linhas, pois é razoável inferir que meu peso em qualquer tarde será relacionado ao meu peso nas manhãs anteriores e seguintes. No entanto, se o número de rosquinhas for representado como um gráfico de linhas, as linhas entre os pontos não poderão ser inferidas dessa linha.

EDITAR

Aqui está outro exemplo: a parcela do salário mínimo por hora federal desde o início em http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html

A menos que eu esteja enganado, as variações do salário mínimo são discretas e, portanto, não é possível procurar algum tempo selecionado arbitrariamente e estabelecer o salário mínimo no ponto usando a linha que interliga os pontos.

user1379351
fonte
3
(+1) O exemplo de salário mínimo por hora é excelente. A própria formulação de sua pergunta sugere uma boa resposta: a saber, que os pontos de conexão em um gráfico não são válidos quando levariam o leitor a fazer interpolações imprecisas (ou totalmente inválidas). Fazer uma distinção entre discrição e descontinuidade ajudaria em uma análise mais aprofundada: o consumo de rosquinha é discreto enquanto o salário mínimo é descontínuo. Cada um merece uma forma diferente de trama.
whuber
Existem gráficos em que um gráfico de dispersão com dados discretos é enganoso sobre um gráfico de linha. Em casos simples, em que é necessária uma sequência de eventos (histerese) ou ocorrem oscilações entre dois níveis e é necessário rastrear as alterações de estado e sua localização. Portanto: não use gráficos de linhas para implicar interpolação, mas use-os como orientação, se apropriado. Não é simples o suficiente para criar uma regra de escolha simples, mas precisa considerar os dados e o modelo em questão.
wirrbel
1
Pergunta interessante! Obrigado por isso. Estou lidando com muitos dados relacionados ao tempo, que em parte decorrem de modelos discretos e dados parcialmente medidos. E a opção de usar gráficos de linhas escalonadas para dados discretos (que podem ser contínuos de certa forma, mas ainda não temos função entre os pontos únicos e não podemos apenas assumir que temos um) e regulares para dados contínuos? Isso é o que eu negócio maneira com ele ..
Cord Kaldemeyer
@CordKaldemeyer, obrigado por comentar - eu não estava ciente do tipo de gráfico "gráfico de linhas escalonadas", mas é definitivamente isso que estou procurando. Eu também encontrei este tutorial útil em fazer pisou gráficos de linhas no Excel: trumpexcel.com/step-chart-in-excel
user1379351
@ user1379351: Ainda bem que pude ajudar!
Cord Kaldemeyer

Respostas:

9

As plotagens de linhas conectadas se mostraram úteis demais para limitar a uma única interpretação. Alguns usos proeminentes:

  • Valores interpolados . O caso é mencionado em que ambas as variáveis ​​são contínuas e todos os pontos interpolados ao longo da linha como uma interpretação significativa.
  • Taxa de variação . Mesmo quando os valores intermediários não são significativos, a inclinação de cada segmento de linha é uma boa representação da taxa de mudança. Observe que, para essa interpretação, os valores X e Y devem ser espaçados adequadamente, o que não é o caso no gráfico salarial que você menciona.
  • Comparação de perfis . Ao comparar múltiplos pequenos ou medidas sobrepostas, as linhas podem ser úteis mesmo para fatores categóricos. Nesse caso, as linhas servem para conectar grupos de respostas para um reconhecimento limitado de padrões. Aqui está um exemplo do peltiertech.com com o fator no eixo Y (em vez do X) para legibilidade do rótulo:

insira a descrição da imagem aqui

xan
fonte
1
É verdade, mas o segundo e o terceiro gráficos são estritamente menos poderosos que o primeiro, pois não se pode usar cálculo.
Milind R
5

Bem, os donuts podem estar relacionados ao peso :-)

Enquanto eu entendo o seu argumento, acho que este exemplo não é tão ruim porque o tempo (no eixo horizontal, ao que as linhas se referem) é contínuo. O significado da linha, para mim, não é tanto que, a cada hora do dia, você come um certo número de rosquinhas, mas o número de rosquinhas por dia muda de alguma maneira regular. Assim, podemos adicionar algo como um pouco mais suave à linha, e isso faria sentido. É pelo menos razoável pensar em rosquinhas comidas a cada hora ou até a cada minuto (embora isso fosse mais sensato com uma variável em que a contagem por dia era maior)

O que é mais preocupante é quando o eixo horizontal é discreto (e especialmente quando é nominal), mas as linhas são desenhadas. Isso realmente não faz sentido. Por exemplo, se você está olhando (digamos) a% de votos para Obama entre (digamos) residentes de diferentes regiões dos EUA, não faz sentido traçar uma linha entre o Nordeste e o Centro-Oeste; especialmente porque a ordem das regiões é arbitrária, mas alterar a ordem alteraria as linhas. No entanto, vi gráficos como este.

Peter Flom - Restabelece Monica
fonte
1
Concordo absolutamente que existem abusos muito piores de gráficos de linha por aí. Eu gosto da abordagem mais suave, pois ela não conecta os pontos e, portanto, não implica dados que não estão lá. Mas serve para destacar a tendência preocupante no consumo de rosquinhas. Obrigado!
precisa saber é o seguinte
3
Você parece estar propondo substituir uma variável - consumo de rosquinha - por outra; ou seja, uma densidade de consumo de rosquinha (rosquinhas por unidade de tempo). Embora isso seja feito com freqüência - especialmente em análises bidimensionais (como mapas de densidade populacional) - e possa ser muito eficaz, seria bom para os leitores estarem cientes de que há uma distinção e considerar como essa distinção poderia ser revelado graficamente.
whuber
2
@whuber Esse é um argumento justo; a linha parece fazer essa substituição. Um gráfico que não faz essa substituição pode ser apenas pontos, desconectado, mas isso parece fazer pelo menos uma dica de que o consumo de rosquinha está localizado em um ponto específico. Portanto, podemos tornar o tempo contínuo e colocar um ponto no momento em que uma rosquinha foi consumida.
Peter Flom - Restabelece Monica