Eu tenho um pequeno conjunto de dados que mostra que o número de pacientes jovens em um registro de doença está aumentando ao longo do tempo. Eu suspeito que isso seja apenas porque o registro se tornou mais bem-sucedido ao longo do tempo e agora captura uma proporção maior de casos.
Gostaria, portanto, de traçar o número de pacientes jovens no registro a cada ano, por exemplo, em um gráfico de linhas, ao lado do número total de pacientes (ou seja, todas as idades) incluídos no registro a cada ano e demonstrar se é ou não
Fiz isso de maneira grosseira no Excel e as tendências não são idênticas. Por isso, gostaria de demonstrar se as tendências são consistentes ou não estatisticamente / graficamente. Alguém pode sugerir uma boa maneira de fazer isso usando Stata ou Excel?
fonte
Respostas:
Como a variação em uma contagem ou proporção tende a ser proporcional à própria contagem ou proporção, a teoria (e muita experiência) sugere analisar as raízes quadradas dos dados.
Veja você mesmo plotando as proporções e contagens gerais nos eixos de raiz quadrada.
Para que cada coluna tenha um impacto visual diretamente proporcional à contagem que representa, as larguras da coluna (assim como suas alturas) também são proporcionais às raízes quadradas das contagens: isso torna as áreas das colunas diretamente proporcionais às contagens. As colunas são apenas levemente desenhadas porque são de interesse secundário nessa visualização de proporções , como o título declara.
A variação aparentemente aleatória dos pontos (representando as proporções) em torno de sua suavidade (mostrada como a linha azul), bem como a simetria aproximada dessa variação em torno da suavidade, atestam a adequação da escala da raiz quadrada. Eles também sugerem que uma análise mais sofisticada da correlação temporal é desnecessária: você pode ter certeza de que as tendências que você vê neste gráfico são reais. Eles apresentam uma imagem mais sutil do que a sugerida na pergunta: as proporções aumentam, mas apenas nos primeiros sete anos.
A criação de uma plotagem combinada pode ser feita no Excel ou no Stata, mas é difícil, exigente e demorada nos dois programas. Este exemplo foi produzido com o
ggplot2
pacote emR
(versão 3.4.0).Para ilustrar o processo, aqui está o
R
código completo .fonte
sqrt
) e o formato das barras amarelas e da linha azul permanece o mesmo, então parece que você tiraria a mesma conclusão.