Existem vários motivos para conectar os pontos em um gráfico. Se você está mostrando apenas uma categoria de valores (ou seja, se houver uma linha, haveria apenas uma), a regra de contínuo versus discreto geralmente é boa de se respeitar. No entanto, mesmo valores discretos ou categóricos podem ser conectados quando várias linhas podem ser necessárias para facilitar o acompanhamento da variação do padrão no eixo x. O objetivo é criar uma história coerente e, se uma linha tornar a história mais sensata ou fácil de seguir, adicione-a. Se isso prejudicar, remova-o.
No seu caso, um gráfico com um ponto para cada lote e horas no eixo x, eu estaria muito inclinado a plotar linhas conectando as horas de cada lote. E, embora você tenha médias às horas, os valores do eixo x são medidos com intervalo e teoricamente contínuos (todo contínuo pode ser considerado medido com intervalo), então há justificativa adicional lá.
Quanto aos bares, como outros pôsteres mencionados. Eu quase sempre os evito. Um ponto geralmente é melhor, mesmo para os tipos de dados normalmente considerados preenchidos por barras.
Considere também que, a menos que os estacionamentos sejam do mesmo tamanho, o número de carros é enganoso. Um gráfico com área fixa e barras típicas implica que cada barra esteja representando o mesmo preenchimento de itens no espaço igualmente. Você resolve esse problema apenas parcialmente com proporções de carros nos lotes. Uma alternativa quando houver apenas um período de tempo seria ter barras vazias indicando os tamanhos dos lotes e preenchê-las com o número de carros. Mas isso seria excessivamente complexo ao demonstrar vários lotes. Gráficos de linhas da proporção de preenchimento conectada ao longo de horas com uma linha para cada lote é o melhor caminho a percorrer aqui.
O IMHO, quem primeiro omitiu o momento exato das mudanças,
number of cars
é o primeiro responsável por quaisquer resultados enganosos. Se você tivesse essas informações (mesmo que medidas com erro),time
seria uma variável contínua adequada, não uma variável contínua agrupada (ver Anderson, 1984) necessariamente. Você seria livre para agrupar observações emhour
compartimentos com base, se realmente quisesse, e nesse momento assumiria a responsabilidade de obter resultados enganosos. Caso contrário, preservando horários precisos de chegada, você poderá representar graficamente suanumber of cars
séries temporaissobre contínuo comtime
precisão.De qualquer forma, supondo que você esteja preso
number of cars
porhour
, Eu concordo com @John, você deve desenhar uma linha conectando suas observações por hora. Se você não tiver informações sobre quando cada alteração incremental ocorreu, é bastante difícil dizer que você está enganando alguém, a menos que não consiga descrever os limites das informações representadas graficamente. Da mesma forma, se você representar graficamente seus dados horários com um gráfico de barras simples, sem uma linha conectando os compartimentos, não será realmente culpado de enganar ninguém, se não afirmar que as alterações entre as observações horárias ocorrem exatamente como representado na hora, tudo de uma vez. Se alguém entender mal (como provavelmente ocorrerá com dados ou estatísticas suficientemente divulgados), não será o caso de você os ter enganado, especialmente se você descrever seus dados e procedimentos de coleta com detalhes suficientes. Isso não deve ser difícil de fazer.Dada a clareza básica e a abrangência das descrições de dados e gráficos, não deve haver desvantagem de desenhar uma linha para conectar seus compartimentos. A vantagem de conectar suas caixas é de fato o que você acha que é a desvantagem: desenhar essas linhas imita uma equação meio decente para a
number of cars
função de contínuatime
, mesmo que seja baseada em observações horárias discretas. Você pode usar uma linha reta entre as observações para representar uma suposição razoavelmente razoável de que a mudança ocorre linearmente sobre cada uma delashour
, não todas de uma vez. Com base nessa suposição, qualquer leitor pode adivinhar de que,minute
após uma determinadahour
medição, o próximo carro chegará ou sairá por esse procedimento de quatro etapas bastante sensato:number of cars
hour
observação do anteriorhour
eixodistance
deste ponto nohour
eixo a partir do ponto da observação anteriordistance
distance between observations
minute
após ahour
chegada do próximo carro.Obviamente, também é possível estimar a chegada do próximo carro ao segundo preciso, e você não pode impedir que os leitores façam isso sem fornecer a linha - desenhar a linha se torna o primeiro dos cinco passos. Portanto, se alguém realmente quer saber quantos carros existem nesse meio tempo ... bem, eles não podem, porque as informações não estão disponíveis, mas podem estimar. Se você interromper o processo por eles, imagino que ficarão agradecidos.
Fazer isso para seus leitores com linhas simples e retas implica apenas seu conforto com a suposição de que a mudança ocorre linearmente entre observações horárias ou, mais pejorativamente, seu desinteresse por quaisquer imprecisões nessa suposição. Imprecisões não são difíceis de imaginar. Primeiro, a mudança ocorre necessariamente como uma função não linear e inflada a zero de
time
. Não é linear porque o evento de mudança é ternário : um carro chega, sai ou nenhum deles - carros não chegam ou saem em incrementos fracionários. É inflado a zero porque a maioria dos momentos não vê um carro chegar ou sair. Você pode contornar isso tratando a linha como descrevendo osprobability
carros que chegarão ou sairão a qualquer momento para alcançar o número inteiro mais próximo.Ainda outra imprecisão da suposição por trás de linhas retas entre observações horárias permanece. Você pode esperar que a taxa de mudança (nos termos
probability
acima) mude mais suavemente com o tempo do que as linhas retas desenhadas separadamente entre os pontos. Em termos mais matemáticos, convém que a derivada da sua funçãonumber of cars
(hour
) seja contínua entrehour
s. Você pode fazer isso ajustando uma função polinomial aos seus dados, mas se seu objetivo for preditivo, tenha cuidado comsobreajuste.Outra vantagem das linhas sobre as barras no estilo do histograma (ou seja, sem espaçamento intermediário para valores adjacentes de
hour
... e muito menos gráficos com barras que não "se tocam") surge da sualot
variável politômica . Você pode sobrepor suas séries temporais separadas para cada lote no mesmo gráfico para facilitar as comparações, o que ajudará você a ver se sualot
variável é interessante. Aqui está uma demonstração com alguns dados inventados:Muitos elogios para McCown !
Nem vou tentar descobrir como fazer isso de forma coerente com as barras; Vou deixar isso para @ ChristianStade-Schuldt;) Para ser justo, é ainda mais fácil não conectar esses pontos, como ele sugeriu, mas adicionar as linhas ajuda a desambiguar os pontos correspondentes a separar séries temporais umas das outras. No final, ainda será um pouco subjetivo, então julgue por si mesmo:
De qualquer maneira, eu me pego desenhando as linhas na minha mente. BTW, se você sentir que as linhas da primeira figura prejudicam qualquer coisa do impacto visual dos pontos exatos, não esqueça que você sempre pode aumentar o tamanho dos pontos, alterar sua forma ou apresentar seus valores numericamente em uma tabela separada .
Referência
Anderson, JA (1984). Regressão e variáveis categóricas ordenadas. Jornal da Sociedade Estatística Real B, 46 , 1–30.
fonte
Uma linha contínua indica um continuum. Se as médias devem ser plotadas, eu consideraria usar um diagrama de barras ou um diagrama de degraus. A plotagem de pontos individuais também é possível e, quando se trata de médias, você provavelmente pode adicionar informações de desvio padrão conforme necessário.
fonte
Eu não ligaria esses pontos porque esses são valores discretos. Dependendo da quantidade de pontos de dados, você pode usar um gráfico de colunas / barras ou apenas pontos.
fonte