Conectando os pontos em um gráfico

8

Dado um gráfico que é o produto de uma equação, podemos calcular significativamente quaisquer pontos que resolvam a equação e, consequentemente, também uma linha que passa pelos pontos. A linha, em qualquer um dos seus pontos, é a resposta.

Mas e quanto a medidas como "número de carros por hora / estacionamento". Faz sentido conectar os pontos de cada medida horária? Isso não nos levaria a resultados falsos, ou pelo menos enganosos, já que não sabemos quantos carros existem nesse meio tempo?

data-visualization Quora Feans
fonte

8

Existem vários motivos para conectar os pontos em um gráfico. Se você está mostrando apenas uma categoria de valores (ou seja, se houver uma linha, haveria apenas uma), a regra de contínuo versus discreto geralmente é boa de se respeitar. No entanto, mesmo valores discretos ou categóricos podem ser conectados quando várias linhas podem ser necessárias para facilitar o acompanhamento da variação do padrão no eixo x. O objetivo é criar uma história coerente e, se uma linha tornar a história mais sensata ou fácil de seguir, adicione-a. Se isso prejudicar, remova-o.

No seu caso, um gráfico com um ponto para cada lote e horas no eixo x, eu estaria muito inclinado a plotar linhas conectando as horas de cada lote. E, embora você tenha médias às horas, os valores do eixo x são medidos com intervalo e teoricamente contínuos (todo contínuo pode ser considerado medido com intervalo), então há justificativa adicional lá.

Quanto aos bares, como outros pôsteres mencionados. Eu quase sempre os evito. Um ponto geralmente é melhor, mesmo para os tipos de dados normalmente considerados preenchidos por barras.

Considere também que, a menos que os estacionamentos sejam do mesmo tamanho, o número de carros é enganoso. Um gráfico com área fixa e barras típicas implica que cada barra esteja representando o mesmo preenchimento de itens no espaço igualmente. Você resolve esse problema apenas parcialmente com proporções de carros nos lotes. Uma alternativa quando houver apenas um período de tempo seria ter barras vazias indicando os tamanhos dos lotes e preenchê-las com o número de carros. Mas isso seria excessivamente complexo ao demonstrar vários lotes. Gráficos de linhas da proporção de preenchimento conectada ao longo de horas com uma linha para cada lote é o melhor caminho a percorrer aqui.

John
fonte

Concordo, principalmente se você estiver tentando comparar dois ou mais conjuntos de dados (digamos, três estacionamentos) ao longo do tempo. É difícil tentar manter os diferentes pontos de cores e trocas retos sem linhas. Geralmente, é bastante claro que, se um gráfico de linhas é uma linha que liga pontos, os pontos são discretos e que, se é apenas uma linha, reflete dados contínuos.

28414 Wayne Wayne

Concordou que as linhas ajudam a diferenciar conjuntos separados; Eu demonstrei esse ponto na minha resposta.

Nick Stauner

1

O IMHO, quem primeiro omitiu o momento exato das mudanças, number of carsé o primeiro responsável por quaisquer resultados enganosos. Se você tivesse essas informações (mesmo que medidas com erro), timeseria uma variável contínua adequada, não uma variável contínua agrupada (ver Anderson, 1984) necessariamente. Você seria livre para agrupar observações em hourcompartimentos com base, se realmente quisesse, e nesse momento assumiria a responsabilidade de obter resultados enganosos. Caso contrário, preservando horários precisos de chegada, você poderá representar graficamente sua number of cars séries temporaissobre contínuo com timeprecisão.

De qualquer forma, supondo que você esteja preso number of carsporhour, Eu concordo com @John, você deve desenhar uma linha conectando suas observações por hora. Se você não tiver informações sobre quando cada alteração incremental ocorreu, é bastante difícil dizer que você está enganando alguém, a menos que não consiga descrever os limites das informações representadas graficamente. Da mesma forma, se você representar graficamente seus dados horários com um gráfico de barras simples, sem uma linha conectando os compartimentos, não será realmente culpado de enganar ninguém, se não afirmar que as alterações entre as observações horárias ocorrem exatamente como representado na hora, tudo de uma vez. Se alguém entender mal (como provavelmente ocorrerá com dados ou estatísticas suficientemente divulgados), não será o caso de você os ter enganado, especialmente se você descrever seus dados e procedimentos de coleta com detalhes suficientes. Isso não deve ser difícil de fazer.

Dada a clareza básica e a abrangência das descrições de dados e gráficos, não deve haver desvantagem de desenhar uma linha para conectar seus compartimentos. A vantagem de conectar suas caixas é de fato o que você acha que é a desvantagem: desenhar essas linhas imita uma equação meio decente para a number of carsfunção de contínua time, mesmo que seja baseada em observações horárias discretas. Você pode usar uma linha reta entre as observações para representar uma suposição razoavelmente razoável de que a mudança ocorre linearmente sobre cada uma delas hour, não todas de uma vez. Com base nessa suposição, qualquer leitor pode adivinhar de que, minuteapós uma determinada hourmedição, o próximo carro chegará ou sairá por esse procedimento de quatro etapas bastante sensato:

Encontre o ponto na linha em que number of cars $=1+$ a hourobservação do anterior
Desenhe uma linha reta a partir deste ponto para descobrir onde ela se cruza com o houreixo
Meça o distancedeste ponto no houreixo a partir do ponto da observação anterior
distance $\div$ distance between observations $\times60=$ minuteapós a hourchegada do próximo carro.

Obviamente, também é possível estimar a chegada do próximo carro ao segundo preciso, e você não pode impedir que os leitores façam isso sem fornecer a linha - desenhar a linha se torna o primeiro dos cinco passos. Portanto, se alguém realmente quer saber quantos carros existem nesse meio tempo ... bem, eles não podem, porque as informações não estão disponíveis, mas podem estimar. Se você interromper o processo por eles, imagino que ficarão agradecidos.

Fazer isso para seus leitores com linhas simples e retas implica apenas seu conforto com a suposição de que a mudança ocorre linearmente entre observações horárias ou, mais pejorativamente, seu desinteresse por quaisquer imprecisões nessa suposição. Imprecisões não são difíceis de imaginar. Primeiro, a mudança ocorre necessariamente como uma função não linear e inflada a zero de time. Não é linear porque o evento de mudança é ternário : um carro chega, sai ou nenhum deles - carros não chegam ou saem em incrementos fracionários. É inflado a zero porque a maioria dos momentos não vê um carro chegar ou sair. Você pode contornar isso tratando a linha como descrevendo os probabilitycarros que chegarão ou sairão a qualquer momento para alcançar o número inteiro mais próximo.

Ainda outra imprecisão da suposição por trás de linhas retas entre observações horárias permanece. Você pode esperar que a taxa de mudança (nos termos probabilityacima) mude mais suavemente com o tempo do que as linhas retas desenhadas separadamente entre os pontos. Em termos mais matemáticos, convém que a derivada da sua função number of cars( hour) seja contínua entre hours. Você pode fazer isso ajustando uma função polinomial aos seus dados, mas se seu objetivo for preditivo, tenha cuidado comsobreajuste.

Outra vantagem das linhas sobre as barras no estilo do histograma (ou seja, sem espaçamento intermediário para valores adjacentes de hour... e muito menos gráficos com barras que não "se tocam") surge da sua lotvariável politômica . Você pode sobrepor suas séries temporais separadas para cada lote no mesmo gráfico para facilitar as comparações, o que ajudará você a ver se sua lotvariável é interessante. Aqui está uma demonstração com alguns dados inventados:

Muitos elogios para McCown !

Nem vou tentar descobrir como fazer isso de forma coerente com as barras; Vou deixar isso para @ ChristianStade-Schuldt;) Para ser justo, é ainda mais fácil não conectar esses pontos, como ele sugeriu, mas adicionar as linhas ajuda a desambiguar os pontos correspondentes a separar séries temporais umas das outras. No final, ainda será um pouco subjetivo, então julgue por si mesmo:

De qualquer maneira, eu me pego desenhando as linhas na minha mente. BTW, se você sentir que as linhas da primeira figura prejudicam qualquer coisa do impacto visual dos pontos exatos, não esqueça que você sempre pode aumentar o tamanho dos pontos, alterar sua forma ou apresentar seus valores numericamente em uma tabela separada .

^{Referência

Anderson, JA (1984). Regressão e variáveis categóricas ordenadas. Jornal da Sociedade Estatística Real B, 46 , 1–30.}

Nick Stauner
fonte

1

Uma linha contínua indica um continuum. Se as médias devem ser plotadas, eu consideraria usar um diagrama de barras ou um diagrama de degraus. A plotagem de pontos individuais também é possível e, quando se trata de médias, você provavelmente pode adicionar informações de desvio padrão conforme necessário.

Peter Jansson
fonte

0

Eu não ligaria esses pontos porque esses são valores discretos. Dependendo da quantidade de pontos de dados, você pode usar um gráfico de colunas / barras ou apenas pontos.

Christian Stade-Schuldt
fonte

Conectando os pontos em um gráfico

Respostas: