Representando dados experimentais

9

Eu tenho uma discussão com meu orientador sobre a visualização de dados. Ele afirma que, ao representar resultados experimentais, os valores devem ser plotados apenas com " marcadores ", conforme apresentado na imagem abaixo. Enquanto as curvas devem representar apenas um " modelo "

Markers.png

Por outro lado, acredito que, em muitos casos, uma curva é desnecessária para facilitar a legibilidade, como mostra a segunda imagem abaixo:

Lines.png

Estou errado ou meu professor? Se o último for o caso, como faço para explicar isso a ele.

Ivan P.
fonte
5
Os pontos são os dados. As curvas que você ajusta aos pontos não são os dados. Portanto, se a sua intenção é mostrar os dados ... #
3
Como JeffE diz. Para ser ainda mais explícito: as curvas que você plotou são um modelo, porque você assumiu uma forma específica ao desenhá-las e tinha alguns motivos para essa forma. Esse raciocínio é baseado em um modelo específico.
Gerrit
11
Enviei uma solicitação de migração; isso realmente pertence a validação cruzada, não aqui.
2
Eu acho que pode estar no tópico CrossValidated, mas definitivamente também está no tópico aqui . A migração só deve ser considerada se estiver fora do tópico aqui (há perguntas que estariam no tópico em dois sites, tudo bem). É uma pergunta real com respostas válidas, é definitivamente relevante para muitos acadêmicos.
2
Seu segundo gráfico é duvidoso. Se você juntou os pontos com linhas retas, você (talvez) tem um argumento para obter clareza visual. Mas, usando uma curva, você está afirmando que o pico da linha azul está em 740 ° e o mínimo da linha roxa está em 840 °, mesmo que você não tenha dados experimentais nessas temperaturas. Introduzir min / max fora dos dados medidos é uma bandeira vermelha.
Darren Cozinhe

Respostas:

10

Eu gosto desta regra de ouro:

Se você precisar da linha para guiar o olho (ou seja, para mostrar uma tendência que sem a linha não seria visível com tanta clareza), não coloque a linha.

Os seres humanos são extremamente bons em reconhecer padrões (estamos mais do lado de ver tendências que não existem do que perder uma tendência existente). Se não conseguirmos obter a tendência sem linha, podemos ter certeza de que nenhuma tendência pode ser mostrada conclusivamente no conjunto de dados.

Falando sobre o segundo gráfico, a única indicação da incerteza dos seus pontos de medição são os dois quadrados vermelhos de C: O 1.2 a 700 ° C. A disseminação desses dois significa que eu não aceitaria, por exemplo,

  • que existe uma tendência para C: O 1.2
  • que existe uma diferença entre 2,0 e 3,6
  • e com certeza os modelos curvos estão super ajustando os dados.

sem muito boas razões dadas. Isso, no entanto, seria novamente um modelo.


edit: responda ao comentário de Ivan:

Sou químico e diria que não há medição sem erro - o que é aceitável dependerá do experimento e do instrumento.

Esta resposta não é contra a exibição de um erro experimental, mas apenas por mostrar e levar em consideração.

A idéia por trás do meu raciocínio é que o gráfico mostra exatamente uma medida repetida; portanto, quando a discussão é sobre a complexidade de um modelo (por exemplo, linha horizontal, linha reta, quadrática, ...), isso pode nos dar uma idéia da medida. erro. No seu caso, isso significa que você não seria capaz de ajustar um quadrático significativo (spline), mesmo se tivesse um modelo rígido (por exemplo, equação termodinâmica ou cinética) sugerindo que ele deveria ser quadrático - você simplesmente não possui dados suficientes .

Para ilustrar isso:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

Aqui está um ajuste linear junto com seu intervalo de confiança de 95% para cada uma das relações C: O:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

modelo linear

Observe que, para as relações C: O mais altas, o intervalo de confiança varia muito abaixo de 0. Isso significa que as suposições implícitas do modelo linear estão erradas. No entanto, você pode concluir que os modelos lineares para conteúdos mais altos de C: O já estão super ajustados.

Portanto, recuando e ajustando apenas um valor constante (ou seja, sem dependência de T):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

sem dependência de T

O complemento é modelar nenhuma dependência em C: O:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

sem dependência C: O

Ainda assim, o intervalo de confiança cobriria uma linha horizontal ou até um pouco ascendente.

Você pode continuar e tentar, por exemplo, permitir compensações diferentes para as três proporções C: O, mas usando inclinações iguais.

No entanto, poucas medições já melhorariam drasticamente a situação - observe quanto mais estreitos os intervalos de confiança para C: O = 1: 1, onde você tem quatro medições em vez de apenas três.

Conclusão: se você comparar meus pontos de quais conclusões eu seria cético, eles estavam lendo demais os poucos pontos disponíveis!

cbeleites descontentes com o SX
fonte
você faz um ponto muito bom. Entretanto, na engenharia, o erro experimental (incerteza) é muito comum e supõe-se que um erro relativo de 3 a 5% seja aceitável. Ainda sou obrigado a mostrar os resultados MAX, MIN e AVG. Então, no meu caso, os marcadores são as extremidades e a linha é a média.
Ivan P.
exemplo muito bom e extremamente útil (você me interessou em R). Portanto, é claro que a coisa certa a fazer é obter mais pontos de dados.
Ivan P.
12

Como JeffE diz: os pontos são os dados . Em geral, é bom evitar adicionar curvas o máximo possível. Uma razão para adicionar curva é que ela torna o gráfico mais agradável aos olhos, tornando os pontos e a tendência entre os pontos mais legíveis. Isto é particularmente verdade se você tiver poucos pontos de dados.

No entanto, existem outras maneiras de exibir dados esparsos , que podem ser melhores que um gráfico de dispersão. Uma possibilidade é um gráfico de barras, onde as várias barras são muito mais visíveis que seus pontos únicos. Um código de cores (semelhante ao que você já tem na sua figura) ajudará a ver as tendências em cada série de dados (ou a série de dados poderá ser dividida e apresentada uma ao lado da outra em gráficos de barras individuais menores).

Por fim, se você realmente deseja adicionar algum tipo de linha entre seus símbolos, existem dois casos:

  1. Se você espera que um determinado modelo seja válido para seus dados (linear, harmônico, qualquer que seja), ajuste seus dados no modelo, explique o modelo no texto e comente o acordo entre dados e modelo.

  2. Se você não possui um modelo razoável para os dados, não deve incluir suposições extras em seu gráfico. Em particular, isso significa que você não deve incluir nenhum tipo de linha entre seus pontos, exceto as linhas estreitas. As boas interpolações que o Excel (e outros softwares) podem desenhar são uma mentira . Não há motivo válido para que seus dados sigam esse modelo matemático específico, portanto, você deve seguir os segmentos de linha reta.

    Além disso, nesse caso, pode ser legal adicionar um aviso em algum lugar da legenda da figura, como "linhas são apenas guias para os olhos".

F'x
fonte
2
Este é um excelente conselho, menos o comentário sobre as barras serem mais apropriadas. Para discussões semelhantes relacionadas a isso, consulte Gráficos alternativos para plotagem de "barra de manuseio" . Imagine o gráfico listado pelo OP como um gráfico de barras agrupado; seria muito difícil visualizar a tendência nos intervalos de temperatura. Uma maneira de tornar os pontos mais facilmente visíveis é movê-los ao longo do eixo x, e o trabalho de Cleveland sugere que devemos preferir pontos a barras de qualquer maneira.
Andy W
@ Andy W, o que você quer dizer com "instale-os ao longo do eixo x"?
Ivan P.
11
@IvanP., Quero dizer, em vez de colocar os pontos fixados nesse valor específico na abcissa para movê-los para a direita ou esquerda ligeiramente, para que os pontos não se cubram. No restante do gráfico, deve ficar claro que eles realmente se referem aos valores exatos para os grupos no eixo x, e a pequena instabilidade não deve ter efeito na visualização da tendência entre os valores.
Andy W
6

1-Seu professor está fazendo uma observação válida.

2-O seu enredo definitivamente não aumenta a legibilidade do IMHO.

3-Pelo meu entendimento, este não é o fórum certo para fazer esse tipo de pergunta realmente e você deve fazer a validação cruzada.

blackace
fonte
Estou interessado em saber onde está o problema de legibilidade e todas as sugestões de melhoria são muito bem-vindas
Ivan P.
1

Às vezes, juntar pontos faz sentido, especialmente se eles são muito densos.

E então pode fazer sentido interpolar (por exemplo, com um spline ). No entanto, se houver algo mais avançado do que a spline de ordem um (para a qual é visivelmente óbvio que são apenas pontos de junção), é preciso mencioná-lo.

No entanto, para o caso de alguns pontos, ou uma dúzia de pontos, não é o caso. Apenas deixe os pontos como estão, com marcadores. Se você deseja ajustar uma linha (ou outra curva), é um modelo. Você pode adicioná-lo, mas seja explícito - por exemplo, "linha representa ajuste de regressão linear".

Piotr Migdal
fonte
0

Penso que há casos em que não se propõe um modelo explícito, mas é necessário algum tipo de guia para os olhos. Minha regra é evitar curvas como a praga e manter linhas retas por partes entre pontos sucessivos de uma série.

Por um lado, essa suposição é mais óbvia para os leitores. Além disso, a pontualidade é boa para manter os leitores longe de assumir tendências não suportadas pelos dados. Se houver, isso apenas destaca ruídos e discrepâncias.

O que me preocupa é o uso superficial (não rigoroso, não explícito) de splines, quadráticas, regressões etc. Muitas vezes isso faz parecer que existem tendências onde não existem. Um bom exemplo de abuso são as curvas desenhadas por @Ivan. Com três pontos de dados, não acho que máximos ou mínimos no modelo subjacente sejam óbvios.

curious_cat
fonte