Estou criando um gráfico para mostrar tendências nas taxas de mortalidade (por 1000 ppl.) Em diferentes países, e a história que deve vir da trama é que a Alemanha (linha azul clara) é a única cuja tendência está aumentando após 1932. Isso é minha primeira tentativa (básica)
Na minha opinião, este gráfico já está mostrando o que queremos dizer, mas não é super intuitivo. Você tem alguma sugestão para deixar mais clara essa distinção entre tendências? Eu estava pensando em traçar taxas de crescimento, mas tentei e não é tão melhor assim.
Os dados são os seguintes
year de fr be nl den ch aut cz pl
1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3
1928 11.2 16.4 12.8 9.6 11 12 14.5 15.1 16.4
1929 11.4 17.9 14.4 10.7 11.2 12.5 14.6 15.5 16.7
1930 10.4 15.6 12.8 9.1 10.8 11.6 13.5 14.2 15.6
1931 10.4 16.2 12.7 9.6 11.4 12.1 14 14.4 15.5
1932 10.2 15.8 12.7 9 11 12.2 13.9 14.1 15
1933 10.8 15.8 12.7 8.8 10.6 11.4 13.2 13.7 14.2
1934 10.6 15.1 11.7 8.4 10.4 11.3 12.7 13.2 14.4
1935 11.4 15.7 12.3 8.7 11.1 12.1 13.7 13.5 14
1936 11.7 15.3 12.2 8.7 11 11.4 13.2 13.3 14.2
1937 11.5 15 12.5 8.8 10.8 11.3 13.3 13.3 14
data-visualization
Doutoramento
fonte
fonte
Respostas:
As vezes menos é mais. Com menos detalhes sobre as variações ano a ano e as distinções de países, você pode fornecer mais informações sobre as tendências. Como os outros países estão se movendo principalmente juntos, você pode passar sem cores separadas.
Ao usar uma suavidade, você está exigindo que o leitor confie que você não suavizou nenhuma variação interessante.
Atualize após receber algumas solicitações de código :
Eu fiz isso no Graph Builder interativo do JMP . O script JMP é:
));
fonte
Há boas respostas aqui. Permitam-me que considere que deseja mostrar que a tendência para a Alemanha difere das demais. Níveis versus mudanças é uma distinção comum em economia. Seus dados estão em níveis , mas sua pergunta é declarada como buscando alterações . A maneira de fazer isso é definir o nível de referência (aqui 1932) como . A partir daí, cada ano sucessivo é uma fração do anterior. (É comum usar logs para tornar as alterações mais estáveis e simétricas. Isso muda um pouco o significado dos números exatos, se você realmente deseja que alguém obtenha isso da trama, mas geralmente para esse tipo de coisa, as pessoas querem ser Você pode obter uma soma contínua para cada série e multiplicá-la por100 1001 100 por convenção. É isso que você planeja. Seu caso é um pouco menos comum, pois seu ponto de referência está no meio da sua série, então eu executei isso nas duas direções desde 1932. Abaixo está um exemplo simples, codificado em R (haverá várias maneiras de criar o código e melhor, mas isso deve mostrar a ideia diretamente). Tornei a linha para a Alemanha mais espessa para distingui-la na legenda e adicionei uma linha de referência em . É fácil ver que a Alemanha se destaca do resto. Você também pode ver que todos os outros países terminam com taxas mais baixas em 1937 do que em 1932, e que suas mudanças ano a ano flutuam muito menos nos anos seguintes a 1932 do que nos anos anteriores. 100
Por outro lado, abaixo está um gráfico correspondente dos dados em níveis. No entanto, tentei tornar possível ver que a Alemanha sozinha subiu depois de 1932 de duas maneiras: coloquei um ponto de destaque em cada série em 1932 e desenhei uma linha cinza fraca ao longo da trama em segundo plano nesses níveis.
fonte
Há muitas boas idéias aqui em outras respostas, mas elas não esgotam as boas soluções possíveis. O primeiro gráfico nesta resposta considera que diferentes níveis de taxa de mortalidade podem ser discutidos e explicados separadamente. Ao permitir que cada série preencha grande parte do espaço disponível, concentra a atenção dos leitores nos padrões de mudança relativa.
A ordem alfabética por país geralmente é um padrão bobo e não é insistida aqui. Felizmente, e felizmente, a Alemanha como de está no centro desta tela 3 x 3. Uma narrativa simples - Olha! O padrão da Alemanha é excepcional, com uma recuperação de 1932 - é possível e plausível.
Felizmente, mas felizmente, 9 países são suficientes para justificar a tentativa de painéis separados, mas não muitos para tornar esse design impraticável (por exemplo, 30 e certamente 300 painéis, poderia (haveria) muitos painéis para digitalizar, cada um pequeno demais para escrutinar).
Evidentemente, há muito espaço aqui para nomes de países mais completos. (Em algumas outras respostas, as lendas ocupam uma grande fração do espaço disponível, permanecendo um pouco enigmáticas. Na prática, as pessoas interessadas nesses dados acham as abreviaturas do país fáceis de decodificar, mas até que ponto a lenda é necessária geralmente é um problema. vexatória no design gráfico.)
Código Stata para o registro:
EDITAR:
Um aprimoramento simples deste gráfico sugerido por Tim Morris é destacar o ano em que o máximo ocorreu:
EDIT 2 (revisado para mostrar um código mais simples):
Como alternativa, esse próximo design mostra cada série separadamente, mas sempre com as outras séries como pano de fundo. A ideia geral é discutida neste segmento relacionado .
Há perdas e ganhos aqui. Embora cada série possa ser vista com mais facilidade no contexto de outras, o espaço é perdido pela repetição.
Código Stata para o registro:
(Código para
input
,reshape
,rename
como acima nesta resposta)fabplot
é para ser entendido comof
ront ouf
oregrounda
ndb
ackdrop oub
trama ackground, não como um eco de 1960 gíria para "fabuloso".fonte
year
como título do eixo x (quem precisa disso?). Vou acrescentar que para um usuário Stata a estrutura de dados natural seria um que não obriga umrename
ereshape
. mas possui painéis distintos (aqui países) como blocos distintos de observações.Seu gráfico é razoável, mas exigiria algum refinamento, incluindo um título, rótulos de eixo e rótulos completos de país. Se seu objetivo é enfatizar o fato de que a Alemanha foi o único país com um aumento na taxa de mortalidade ao longo do período de observação, uma maneira simples de fazer isso seria destacar essa linha na trama, usando uma linha mais grossa, uma outra transparência de tipo de linha ou alfa. Você também pode aumentar seu gráfico de séries temporais com um gráfico de barras mostrando a alteração na taxa de mortalidade ao longo do tempo, para que a complexidade das linhas de séries temporais seja reduzida a uma única medida de alteração.
Aqui está como você poderia produzir essas parcelas usando
ggplot
emR
:Isso leva aos seguintes gráficos:
Nota: Estou ciente de que o OP pretendia destacar a mudança na taxa de mortalidade desde 1932, quando a tendência na Alemanha começou a subir. Isso me parece um pouco como escolher cerejas, e acho duvidoso quando intervalos de tempo são escolhidos para obter uma tendência específica. Por esse motivo, observei o intervalo em todo o intervalo de dados, que é uma comparação diferente do OP.
fonte
Embora o objetivo declarado seja exibir alterações, aparentemente você deseja mostrar as séries temporais anuais por país também. Isso sugere não refazer completamente o gráfico, mas apenas modificá-lo.
Como uma mudança diz respeito ao que acontece de um ano para o outro, considere representar as alterações por símbolos gráficos que se estendem por anos sucessivos: ou seja, os segmentos de linha que conectam os pontos de dados no gráfico.
Como a cor é tão útil para distinguir países e, caso contrário, não é tão boa para indicar variáveis quantitativas, isso nos deixa essencialmente com apenas duas outras características que podem ser variadas para indicar mudanças: o estilo e a espessura dos segmentos. Como sua tese diz respeito a mudanças positivas, convém destacar os segmentos de linha para aumentos: seus estilos devem ser mais contínuos e mais espessos.
Finalmente, sua tese diz respeito a dados após 1932. Queremos enfatizar esses elementos do gráfico em relação aos outros. Isso pode ser feito saturando a cor.
Esta solução fornece imediatamente informações que não eram aparentes no original:
Nenhum país experimentou aumentos anuais nas taxas de mortalidade em todos os anos após 1932. Qualquer país desse tipo apareceria como uma linha contínua e sólida, mas não existe essa linha.
Grande parte da mudança deve ser atribuída a fatores comuns a todos os países. Isso é aparente nas semelhanças do estilo e espessura da linha nas colunas verticais. Por exemplo, durante o período de 1934-35, as taxas de mortalidade aumentaram em quase todos os países, onde, em 1933-34, diminuíram em quase todos os países.
A Alemanha foi incomum ao experimentar um grande aumento nas taxas de mortalidade em 1932-33 e também um ligeiro aumento em 1935-36.
Eles sugerem a realização de uma exploração bidirecional robusta da mudança na taxa de mortalidade versus país, talvez por polonês mediano, a fim de penetrar mais profundamente no desempenho relativo dos países europeus durante esse período.
Se você deseja enfatizar apenas a diferença entre 1937 e 1932, uma técnica semelhante pode ser usada para simbolizar as partes dos caminhos entre essas datas. A Alemanha se destacaria:
fonte
Slopegraphs
Uma maneira de apresentar seus dados é usar um slopegraph, especialmente bom para comparar alterações ou gradientes (alguns links: 1 2 )
Abaixo está
À esquerda, um exemplo de slopegraph que mostra como isso se parece com o seu caso.
No centro, um slopegraph mais complexo, que também mostra o ano de 1932
À direita, uma variação do slopegraph, mais uma espécie de sparklines, em que todos os dados são mostrados (o que significa que não há linhas retas).
Não tenho certeza de qual é o melhor. A terceira opção / direita fornece uma idéia mais forte sobre as variações de ano para ano (e, por exemplo, torna-se mais visível que Danmark vs Alemanha não parecem tão diferentes e está subindo e descendo muito de ano para ano), mas pode também pode ser uma distração (especialmente o pico de 1929). Então, qual é o melhor depende do que você deseja transmitir com o gráfico e quantos detalhes sua história exige (por exemplo, a virada de 1932 com o governo diferente, que é mais claro na segunda opção / meio).
A variação do slopegraph à direita se parece muito com o gráfico de Xan. No entanto, além das diferenças estilísticas, há mais uma diferença importante. A largura e a altura da figura são escolhidas de modo que o ângulo das curvas esteja próximo de 45 graus. Dessa maneira, as diferenças são mais salientes (acredito que o melhor exemplo é o exemplo das manchas solares de Edward Tufte )
Mais contexto
Se você deseja adicionar mais complexidade do que o slopegraph simples, acredito que é realmente melhor mostrar mais dados fora do intervalo 1927-1937 do que dentro do intervalo. (novamente um exemplo de Tufte das páginas 74-75 em A exibição visual de informações quantitativas, você pode acessá-las através desta página no quadro de avisos em seu site)
O exemplo abaixo mostra os dados dos anos 1900-2000 (excluindo a Polônia cujos dados são um pouco difíceis) extraídos da wikipedia (por exemplo, esta página para a República Tcheca ) e para a Suíça e os Países Baixos seus departamentos nacionais de estatística ( bfs e Statline ).
(Os dados são um pouco diferentes dos seus, mas o mesmo que, por exemplo, o artigo "Autarquia, desintegração do mercado e saúde: a crise nutricional e de mortalidade na Alemanha nazista, 1933-1937" por Jörg Baten e Andrea Wagner. Este artigo é interessante ler, pois fornecem muito mais dados do que apenas as taxas brutas de mortalidade, embora também se limitem a um pequeno período.especialmente interessante é que o aumento da taxa de mortalidade, de 1932 a 1937, existia principalmente entre as cidades em uma faixa de Frankfurt a Bremen Hamburgo)
Acredito que este gráfico é importante porque mostra que a Alemanha teve uma queda muito forte antes do aumento após 1932. Mais forte que em outros países. Então você pode ter interpretações negativas e positivas. A taxa de mortalidade da Alemanha estava subindo mais do que outros países entre 1932-1937, mas isso foi (1) um aumento de um pico baixo ou (2) um aumento de um pico alto? Um aspecto interessante a esse respeito é que o nível de 10,8 de 1932 é um nível muito baixo para a Alemanha (neste momento, apenas os Países Baixos tinham uma taxa de mortalidade mais baixa). Este não é apenas o nível mais baixo para os anos até 1937, mas também leva até 1995 para que este nível de 10,8 seja atingido novamente.
Outro ponto, relacionado à saúde (se esse for o seu contexto), pode ser melhor comparar a expectativa de vida, a composição demográfica da população influencia a taxa de mortalidade, independentemente de mudanças na situação de saúde
Contexto um pouco menos adicional
O gráfico acima mostra a totalidade, mas pode ser um exagero para a maioria dos propósitos (exceto neste post, onde eu queria mostrar toda a história e é mais para fins exploratórios). O gráfico abaixo é uma alternativa que, acredito, ainda é decente.
fonte
Depende da audiência, mas eu simplificaria as coisas:
Em seguida, soletre-o na legenda, por exemplo
(BTW, o que é ch vs. cz, ou seja, que país estou faltando acima?)
Para ser completo, é claro que você precisará ponderar a
death rate
estimativa de população ao "agrupar" isso para os "Outros", mas tenho certeza de que essa informação está prontamente disponível para você.Atualização 6/9/18: É claro que este é um esboço de 'brinquedo' e não foi derivado dos dados; a idéia é fornecer um rascunho da forma que um gráfico deve ter.
Para abordar o comentário do whuber: os valores para 'Outros' podem ser gerados como média, ponderada pela população , por exemplo, com indicando valor para por ano e como países em 'Outros':Oy O i=1...8 8×
ou melhor, se você tiver informações sobre a população. para cada ano:
Dependendo dos leitores (por exemplo, epidemiologistas versus historiadores), um desvio padrão ou erro padrão pode ser adicionado a este último, embora eu ache que isso prefira estragar a aparência simples da trama.
fonte
ch
é a Suíça. (E, BTW, ainda não era a República Tcheca nos anos 30.) - O que eu não gosto na sua abordagem é que não está claro se a tendência de queda é consistente nos outros países. Pode parecer que há apenas flutuações aleatórias que acontecem em média com algo negativo nos outros países, mas saem positivas na Alemanha.Se você deseja destacar as alterações, talvez calcule isso e exiba isso. O uso de um mapa de calor para exibir as alterações pode ser útil, pois permite fazer comparações sem sobrecarregar os problemas e evitar problemas de interpolação que podem vir dos gráficos de linha.
Usando seus dados como
d
em R:Observe que agora os dados são alterados em relação ao ano anterior. Você pode ver que a Alemanha tem um conjunto de blues (aumentos nas taxas de mortalidade) após 1932 que outros países não têm. Você também pode ver que entre 1934 e 1935 todos os países, exceto a Polônia, tiveram aumentos nas taxas de mortalidade, mas a tendência da Alemanha parece ser 1932-1933 e 1935-1936 (assim como 1927-1928).
Uma característica interessante é o fato de as cores serem mais intensas à esquerda em comparação à direita. Isso significa que a magnitude das mudanças foi maior no início do período e mais silenciosa no final.
Eu recomendaria emparelhar isso com um gráfico de linhas mostrando os níveis também.
fonte
Aqui, mostro a diferença do logaritmo da proporção de óbitos por mil habitantes em relação ao ano anterior (portanto, 1927 não é mostrado). A Alemanha é mostrada em vermelho, enquanto a média de outros países é mostrada na linha preta grossa.
A Alemanha teve aumentos na proporção em 5 de 10 anos. Depois de 1932, ficou acima da média de outros países (e principalmente positivo), até 1937.
Embora por que o logaritmo? O motivo é simples: a mudança de 2 para 1 é mais drástica do que a mudança de 1000 para 999 :)
Código:
fonte
Mais uma versão: proporções (taxa média de mortalidade entre 1927 e o ano atual) / (taxa de mortalidade 1927)
Feito com o código do Mathematica
(Os picos em 1929 parecem estar relacionados a uma pandemia de gripe que ocorreu nessa época)
fonte