Como posso mostrar se duas séries temporais são "diferentes" uma da outra?

7

Eu tenho um pequeno conjunto de dados que mostra que o número de pacientes jovens em um registro de doença está aumentando ao longo do tempo. Eu suspeito que isso seja apenas porque o registro se tornou mais bem-sucedido ao longo do tempo e agora captura uma proporção maior de casos.

Gostaria, portanto, de traçar o número de pacientes jovens no registro a cada ano, por exemplo, em um gráfico de linhas, ao lado do número total de pacientes (ou seja, todas as idades) incluídos no registro a cada ano e demonstrar se é ou não

Fiz isso de maneira grosseira no Excel e as tendências não são idênticas. Por isso, gostaria de demonstrar se as tendências são consistentes ou não estatisticamente / graficamente. Alguém pode sugerir uma boa maneira de fazer isso usando Stata ou Excel?

Amostra de dados

MonteCristo
fonte
Sua pergunta está realmente perguntando "como posso saber se uma proporção está mudando ao longo do tempo"?
Silverfish
Você já olhou para o algoritmo de distorção dinâmica do tempo ?
Bruno Wu

Respostas:

8

Como a variação em uma contagem ou proporção tende a ser proporcional à própria contagem ou proporção, a teoria (e muita experiência) sugere analisar as raízes quadradas dos dados.

Veja você mesmo plotando as proporções e contagens gerais nos eixos de raiz quadrada.

Figura

Para que cada coluna tenha um impacto visual diretamente proporcional à contagem que representa, as larguras da coluna (assim como suas alturas) também são proporcionais às raízes quadradas das contagens: isso torna as áreas das colunas diretamente proporcionais às contagens. As colunas são apenas levemente desenhadas porque são de interesse secundário nessa visualização de proporções , como o título declara.

A variação aparentemente aleatória dos pontos (representando as proporções) em torno de sua suavidade (mostrada como a linha azul), bem como a simetria aproximada dessa variação em torno da suavidade, atestam a adequação da escala da raiz quadrada. Eles também sugerem que uma análise mais sofisticada da correlação temporal é desnecessária: você pode ter certeza de que as tendências que você vê neste gráfico são reais. Eles apresentam uma imagem mais sutil do que a sugerida na pergunta: as proporções aumentam, mas apenas nos primeiros sete anos.

A criação de uma plotagem combinada pode ser feita no Excel ou no Stata, mas é difícil, exigente e demorada nos dois programas. Este exemplo foi produzido com o ggplot2pacote em R(versão 3.4.0).


Para ilustrar o processo, aqui está o Rcódigo completo .

library(ggplot2)
X <- data.frame(Year=2003:2016,
                Young=c(17,23,22,35,46,71,80,68,76,84,74,88,62,60),
                All=c(3007,5200,6000,5900,6740,7070,7120,
                      7324,7620,8051,8437,9130,8930,9000)*10)
scale.dup <- 0.5e6 # Proportional to column heights in the plot
ggplot(X, aes(Year, 100 * scale.dup * Young/All)) +
  geom_col(aes(Year, All, width=2.25*sqrt(All/scale.dup)),
           fill="#ffffe0", alpha=0.75, color="Gray") +
  geom_smooth(size=1.25) +
  geom_point(size=2) +
  ylab("All") +
  scale_y_continuous(sec.axis=dup_axis(~. / scale.dup, "Young / All (%)"), trans="sqrt") +
  ggtitle("Disease Registry Patient Proportions", "2003 - 2016 (square root scales)")
whuber
fonte
Isso é maravilhoso - obrigado. Eu tenho apenas um conhecimento passageiro de R. Você gostaria de compartilhar o código que usou para produzir essa figura ou uma direção para um recurso de ajuda focado que pode me ajudar a alcançar algo semelhante?
MonteCristo 8/08/17
Você pode expandir por que usa raízes quadradas? Tentei refazer com escalas lineares (acabei de remover as duas referências sqrt) e o formato das barras amarelas e da linha azul permanece o mesmo, então parece que você tiraria a mesma conclusão.
Darren Cozinhe
@ Darren, os dados contados geralmente seguem as distribuições binomiais. Contagens que são pequenas frações de um total terão, portanto, variações próximas das próprias contagens. A raiz quadrada é a transformação estabilizadora de variância nesses casos: ou seja, a quantidade de variação provável (vertical) no gráfico será a mesma em uma escala de raiz quadrada, independentemente de como as contagens possam variar, enquanto as quantidades variarão. em uma escala linear. Alcançar essa homoscedasticidade é útil na análise exploratória e na escolha de procedimentos estatísticos.
whuber
@whuber Obrigado. Ainda não entendi direito, mas vou tentar pesquisar distribuições binomiais e ver se a iluminação chega. :-)
Darren Cook