Estou tentando comparar visualmente como três publicações de notícias diferentes cobrem tópicos diferentes (determinado por meio de um modelo de tópico da LDA). Eu tenho dois métodos relacionados para fazer isso, mas recebi muitos comentários de colegas de que isso não é muito intuitivo. Espero que alguém tenha uma idéia melhor para visualizar isso.
No primeiro gráfico, mostro as proporções de cada tópico em cada publicação, da seguinte forma:
Isso é bem direto e intuitivo para quase todo mundo com quem conversei. No entanto, é difícil ver as diferenças entre as publicações. Qual jornal aborda mais qual tópico?
Para chegar a isso, fiz um gráfico da diferença entre a publicação com a maior e a segunda maior proporção de tópicos, colorida pela publicação com a mais alta. Como isso:
Portanto, a enorme barra de futebol, por exemplo, é realmente a distância entre o al-Ahram English e o Daily News Egypt (# 2 na cobertura de futebol), e é vermelho porque Al-Ahram é o número 1. Da mesma forma, os testes são verdes porque o Egypt Independent tem a maior proporção e o tamanho da barra é a distância entre o Egypt Independent e o Daily News Egypt (# 2 novamente).
O fato de eu ter que explicar que tudo isso em dois parágrafos é um sinal bastante claro de que o gráfico falha no teste de auto-suficiência. É difícil dizer o que realmente está acontecendo apenas olhando para ele.
Alguma sugestão geral sobre como destacar visualmente a publicação dominante para cada tópico de uma maneira mais intuitiva?
Edit: Dados para jogar: Aqui está a dput
saída do R , bem como um arquivo CSV .
Edit 2: Aqui está uma versão preliminar do gráfico de pontos, com os diâmetros dos pontos proporcionais à proporção do tópico no corpus (que é como os tópicos foram originalmente classificados). Embora eu ainda precise ajustá-lo um pouco mais, parece muito mais intuitivo do que o que estava fazendo antes. Obrigado a todos!
fonte
Respostas:
Obrigado por tornar os dados acessíveis e por um conjunto de dados interessante e um desafio gráfico.
Minha principal sugestão é de um gráfico de pontos (Cleveland).
Os detalhes mais importantes que eu gostaria de enfatizar:
A sobreposição aqui permite e facilita a comparação.
A ordem dos tópicos em suas telas parece bastante arbitrária. Na ausência de uma ordem natural (por exemplo, tempo, espaço, uma variável ordenada), eu sempre selecionava uma das variáveis para fornecer uma estrutura. Qual usar pode ser uma questão de se é particularmente interessante ou importante, a decisão de um pesquisador. Outra possibilidade é ordenar, de certa forma, as diferenças entre os artigos, para que os tópicos que recebem cobertura semelhante estejam em uma extremidade e os que estejam recebendo cobertura diferente na outra extremidade.
Marcadores abertos ou símbolos de pontos permitem que a sobreposição ou identidade seja resolvida melhor do que os marcadores ou símbolos fechados ou sólidos, que nos piores casos se obscurecem ou se obstruem. (Uma alternativa que pode funcionar muito bem aqui são cartas como A, D e I para os três jornais.)
Claramente, há muito espaço para melhorar meu design. Por exemplo, as letras são muito grandes e / ou muito pesadas? Por outro lado, os títulos devem ser facilmente legíveis, caso contrário, o gráfico é uma falha.
Alguns pontos menores e mais exigentes:
uma. Vermelho e verde no seu gráfico é uma combinação de cores a ser evitada. Quando marcadores diferentes são usados, as opções de cores são um pouco menos cruciais.
b. Os ticks horizontais no seu gráfico são perturbadores. Por outro lado, são necessárias linhas de grade nas minhas, mas tento torná-las discretas usando linhas finas e leves.
Os gráficos de pontos de Cleveland devem mais a
Cleveland, WS 1984. Métodos gráficos para apresentação de dados: quebras de escala completa, gráficos de pontos e registro em várias bases. American Statistician 38: 270-80.
Cleveland, WS 1985. Elementos de representação gráfica de dados. Monterey, CA: Wadsworth.
Cleveland, WS 1994. Elementos dos dados gráficos. Summit, NJ: Hobart Press.
Um precursor (mais famoso estatisticamente por trabalhos bastante diferentes !!!) foi
Pearson, ES 1956. Alguns aspectos da geometria da estatística: o uso da apresentação visual na compreensão da teoria e aplicação da estatística matemática. Jornal da Sociedade Estatística Real A 119: 125-146.
Para os interessados, o gráfico foi preparado em Stata após a leitura no arquivo .csv com o código
fonte
O gráfico de pontos de Nick Cox é provavelmente o melhor para a imagem completa. Se você realmente deseja enfatizar o primeiro relacionamento com o segundo, aqui está uma modificação no seu gráfico que compensa a barra de diferença com o comprimento da segunda barra.
E para uma visão diferente da imagem grande, você pode tentar algo como um gráfico de inclinação ou um gráfico de coordenadas paralelas. As linhas podem estar um pouco cheias aqui, mas pode funcionar se você quiser destacar um subconjunto dos tópicos.
Além disso, você pode tentar o helpmeviz.com, voltado para dados muito específicos, como perguntas como esta.
fonte
Meu primeiro instict foi sugerir uma trama mosaica ; representa graficamente cada subcategoria como um retângulo, em que uma dimensão representa a contagem total da categoria principal e a outra dimensão representa o compartilhamento proporcional da subcategoria. Há um pacote R para desenhá-los , mas também é bastante direto com as ferramentas gráficas de nível inferior.
No entanto, os gráficos de mosaico (como gráficos de barras empilhadas com base em porcentagem) funcionam melhor se houver apenas 2 ou 3 categorias na dimensão na qual você deseja comparar proporções. Portanto, eles funcionariam bem se você quisesse comparar as diferenças entre os tópicos na proporção de artigos que estão em cada um dos três jornais , mas não tanto para o uso pretendido, comparando as diferenças entre os três jornais na proporção de cobertura para cada tópico . Uma distinção sutil, mas importante!
Para o que você deseja enfatizar, acho que o gráfico mais eficaz é um dos mais simples - um gráfico de barras agrupado. Mais pessoas entendem gráficos de barras do que gráficos de pontos; de relance, você pode ver que está comparando quantidades de tamanhos diferentes, e os valores que deseja comparar são lado a lado.
No entanto, se você realmente quiser enfatizar as diferenças na proporção, poderá criar um gráfico de barras agrupado personalizado, modificado para posicionar cada grupo, para que o valor mediano por categoria seja alinhado com o eixo, em vez dos valores zero:
Observe que as barras em cada grupo ainda estão alinhadas para facilitar a comparação de tamanho e que a linha de base de cada grupo agora está posicionada à esquerda do eixo de acordo com o valor mediano do grupo, enquanto as barras que se projetam à direita do eixo são equivalentes ao seu segundo gráfico de barras, mostrando a diferença entre as duas principais categorias.
Independentemente de você usar um gráfico de barras agrupado padrão ou um gráfico com ajuste de deslocamento como o descrito acima, você ainda pode ter uma idéia de gráficos em mosaico e tornar a largura de cada barra proporcional à contagem total de artigos desse jornal (portanto, o tamanho de a barra é proporcional ao número de artigos desse jornal nessa categoria).
Como sua estatística de teste é uma propriedade de cada comparação , não de valores individuais, não acho que seja útil dimensionar todos os pontos de dados de acordo com a significância. Em vez disso, eu teria um ícone ao lado de cada agrupamento representando significado. Para publicação acadêmica, o padrão
*
/**
/***
tem o benefício de familiaridade, mas você pode ser criativo se quiser mostrar o continuum completo da estatística.fonte
Você já tentou um gráfico de bolhas? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart
Os tópicos individuais podem ser círculos e cada círculo pode ser um gráfico da porcentagem em que cada canal de notícias cobre o tópico. O tamanho do círculo pode indicar a cobertura relativa do tópico. por exemplo, se mais artigos são escritos sobre óleo do que cultura, o círculo de óleo tem um diâmetro maior.
fonte