Eu tenho uma discussão com meu orientador sobre a visualização de dados. Ele afirma que, ao representar resultados experimentais, os valores devem ser plotados apenas com " marcadores ", conforme apresentado na imagem abaixo. Enquanto as curvas devem representar apenas um " modelo "
Por outro lado, acredito que, em muitos casos, uma curva é desnecessária para facilitar a legibilidade, como mostra a segunda imagem abaixo:
Estou errado ou meu professor? Se o último for o caso, como faço para explicar isso a ele.
data-visualization
communication
Ivan P.
fonte
fonte
Respostas:
Eu gosto desta regra de ouro:
Os seres humanos são extremamente bons em reconhecer padrões (estamos mais do lado de ver tendências que não existem do que perder uma tendência existente). Se não conseguirmos obter a tendência sem linha, podemos ter certeza de que nenhuma tendência pode ser mostrada conclusivamente no conjunto de dados.
Falando sobre o segundo gráfico, a única indicação da incerteza dos seus pontos de medição são os dois quadrados vermelhos de C: O 1.2 a 700 ° C. A disseminação desses dois significa que eu não aceitaria, por exemplo,
sem muito boas razões dadas. Isso, no entanto, seria novamente um modelo.
edit: responda ao comentário de Ivan:
Sou químico e diria que não há medição sem erro - o que é aceitável dependerá do experimento e do instrumento.
Esta resposta não é contra a exibição de um erro experimental, mas apenas por mostrar e levar em consideração.
A idéia por trás do meu raciocínio é que o gráfico mostra exatamente uma medida repetida; portanto, quando a discussão é sobre a complexidade de um modelo (por exemplo, linha horizontal, linha reta, quadrática, ...), isso pode nos dar uma idéia da medida. erro. No seu caso, isso significa que você não seria capaz de ajustar um quadrático significativo (spline), mesmo se tivesse um modelo rígido (por exemplo, equação termodinâmica ou cinética) sugerindo que ele deveria ser quadrático - você simplesmente não possui dados suficientes .
Para ilustrar isso:
Aqui está um ajuste linear junto com seu intervalo de confiança de 95% para cada uma das relações C: O:
Observe que, para as relações C: O mais altas, o intervalo de confiança varia muito abaixo de 0. Isso significa que as suposições implícitas do modelo linear estão erradas. No entanto, você pode concluir que os modelos lineares para conteúdos mais altos de C: O já estão super ajustados.
Portanto, recuando e ajustando apenas um valor constante (ou seja, sem dependência de T):
O complemento é modelar nenhuma dependência em C: O:
Ainda assim, o intervalo de confiança cobriria uma linha horizontal ou até um pouco ascendente.
Você pode continuar e tentar, por exemplo, permitir compensações diferentes para as três proporções C: O, mas usando inclinações iguais.
No entanto, poucas medições já melhorariam drasticamente a situação - observe quanto mais estreitos os intervalos de confiança para C: O = 1: 1, onde você tem quatro medições em vez de apenas três.
Conclusão: se você comparar meus pontos de quais conclusões eu seria cético, eles estavam lendo demais os poucos pontos disponíveis!
fonte
Como JeffE diz: os pontos são os dados . Em geral, é bom evitar adicionar curvas o máximo possível. Uma razão para adicionar curva é que ela torna o gráfico mais agradável aos olhos, tornando os pontos e a tendência entre os pontos mais legíveis. Isto é particularmente verdade se você tiver poucos pontos de dados.
No entanto, existem outras maneiras de exibir dados esparsos , que podem ser melhores que um gráfico de dispersão. Uma possibilidade é um gráfico de barras, onde as várias barras são muito mais visíveis que seus pontos únicos. Um código de cores (semelhante ao que você já tem na sua figura) ajudará a ver as tendências em cada série de dados (ou a série de dados poderá ser dividida e apresentada uma ao lado da outra em gráficos de barras individuais menores).
Por fim, se você realmente deseja adicionar algum tipo de linha entre seus símbolos, existem dois casos:
Se você espera que um determinado modelo seja válido para seus dados (linear, harmônico, qualquer que seja), ajuste seus dados no modelo, explique o modelo no texto e comente o acordo entre dados e modelo.
Se você não possui um modelo razoável para os dados, não deve incluir suposições extras em seu gráfico. Em particular, isso significa que você não deve incluir nenhum tipo de linha entre seus pontos, exceto as linhas estreitas. As boas interpolações que o Excel (e outros softwares) podem desenhar são uma mentira . Não há motivo válido para que seus dados sigam esse modelo matemático específico, portanto, você deve seguir os segmentos de linha reta.
Além disso, nesse caso, pode ser legal adicionar um aviso em algum lugar da legenda da figura, como "linhas são apenas guias para os olhos".
fonte
1-Seu professor está fazendo uma observação válida.
2-O seu enredo definitivamente não aumenta a legibilidade do IMHO.
3-Pelo meu entendimento, este não é o fórum certo para fazer esse tipo de pergunta realmente e você deve fazer a validação cruzada.
fonte
Às vezes, juntar pontos faz sentido, especialmente se eles são muito densos.
E então pode fazer sentido interpolar (por exemplo, com um spline ). No entanto, se houver algo mais avançado do que a spline de ordem um (para a qual é visivelmente óbvio que são apenas pontos de junção), é preciso mencioná-lo.
No entanto, para o caso de alguns pontos, ou uma dúzia de pontos, não é o caso. Apenas deixe os pontos como estão, com marcadores. Se você deseja ajustar uma linha (ou outra curva), é um modelo. Você pode adicioná-lo, mas seja explícito - por exemplo, "linha representa ajuste de regressão linear".
fonte
Penso que há casos em que não se propõe um modelo explícito, mas é necessário algum tipo de guia para os olhos. Minha regra é evitar curvas como a praga e manter linhas retas por partes entre pontos sucessivos de uma série.
Por um lado, essa suposição é mais óbvia para os leitores. Além disso, a pontualidade é boa para manter os leitores longe de assumir tendências não suportadas pelos dados. Se houver, isso apenas destaca ruídos e discrepâncias.
O que me preocupa é o uso superficial (não rigoroso, não explícito) de splines, quadráticas, regressões etc. Muitas vezes isso faz parecer que existem tendências onde não existem. Um bom exemplo de abuso são as curvas desenhadas por @Ivan. Com três pontos de dados, não acho que máximos ou mínimos no modelo subjacente sejam óbvios.
fonte