A BBC analisou mais dados do referendo do Brexit; o primeiro gráfico em seu artigo chamou minha atenção:
Parecia estranho dividir o eixo x em 50%. Certamente isso deveria ter sido dividido na mediana dos dados? (Ou a média se os dados eram normalmente distribuídos; mas, olhando de soslaio, isso não parece ser o caso aqui.)
(Eles não divulgaram seus dados, mas um rápido google sugere que os graduados representam aproximadamente 25% da população adulta, e isso combina com os olhos do gráfico, então eu vou com isso.)
Mas isso me fez pensar em como desenhar esse gráfico da maneira mais objetiva possível. Seria melhor manter o eixo x linear e ter as duas caixas à direita três vezes mais largas? Ou mantenha as caixas do mesmo tamanho e esmague e estique o eixo x, para que cada extensão de pixel N cubra o mesmo número de pontos de dados? Ou alguma outra coisa?
fonte
Respostas:
Penso que esta versão do FT de dados semelhantes serve como uma resposta decente sobre como apresentar os dados de maneira justa.
Em vez de absolutos em uma escala de 0 a 100, ele aumenta o zoom para se concentrar na mudança. As linhas ajudam a verificar o padrão que é difícil de avaliar apenas nos pontos por causa de toda a superação. (Quantas das divisões 1070 você consegue distinguir no original?)
fonte
Concordo que a coloração dos quadrantes em rosa é amplamente cosmética, mas no geral vejo isso como um gráfico informativo claro. A mensagem é imediatamente aparente e não é enganosa. A BBC traçou os pontos de dados reais. Eles não manipularam os eixos x ou y. A anotação na plotagem está correta e não é exagerada. Eles não adicionaram linhas de tendência falsas ou qualquer outra interpretação desnecessária. Comparado à maioria dos dados apresentados na mídia, esse gráfico é excelente - é um bom exemplo de como os dados falam por si. Em suma, acho que você está pensando demais. Não duvido que você possa encontrar algumas maneiras de melhorar o enredo, mas simples é geralmente o melhor.
fonte
Concordo que o gráfico é enganoso, no sentido de pretender mostrar que não há pontos de dados no quadrante categoricamente descritos como% de votos altos,%% de graduados. O que é alto e baixo se torna relativo aos limites do eixo, não aos dados reais. Embora teoricamente seja possível ter uma ala com população com 100% de ensino superior, essa ala não existe. Você não precisa inventar pontos de dados para produzir um gráfico enganoso: um eixo quebrado que mostra mudanças exageradas é um exemplo que não é muito diferente deste.
Uma maneira mais objetiva de visualizar esses dados seria definir os limites do eixo do gráfico de dispersão no máximo / min dos dados e depois dividir o gráfico em quadrantes de uma área igual.
A razão pela qual eu iria para a mesma área de quadrantes é para que os quadrantes mostrem uma relação linear equivalente entre variáveis. As descrições categóricas dos quadrantes, "alto" e "baixo" são tratadas como equivalentes, de modo que as áreas também devem ser.
Se, em vez disso, quisermos usar os quadrantes como outra maneira de descrever quantitativamente os dados, poderemos definir as bordas do quadrante na média de cada variável, conforme mostrado em Data Visualization com exemplos R: 100 (disponível para visualização no Google Livros, p283.286).
Para adicionar outra camada analítica a uma visualização de gráfico de dispersão, podemos usar a cor e o tamanho dos pontos. Por exemplo, a cor pode ser usada para separar cidades universitárias das demais, mostrar a participação dos eleitores em um gradiente ou destacar os resultados das Eleições Gerais para essas enfermarias. Não tenho certeza se o tamanho será eficaz com tantos pontos de dados, mas você pode investigar diferentes faixas populacionais, como mais de 65 anos, e como elas são representadas nos dados.
A meu ver, há também duas advertências importantes a serem consideradas ao analisar este gráfico: primeiro, que conta todos os graduados, independentemente de terem votado no referendo ou não, e segundo, que inclui graduados residentes com passaportes da UE que não pôde votar no referendo (supondo que os dados de origem sejam baseados no Censo).
fonte
Eu concordo, muito enganador. Eu eliminaria o fundo colorido todos juntos.
Se você insiste em colori-lo, talvez um gradiente corresponda à densidade populacional? Ou seja, a cor do plano de fundo fica mais escura à medida que mais alas caem na categoria "educado versus sair"
Definitivamente, há uma tendência, acho que ninguém argumentaria contra isso - talvez o autor deva seguir algum tipo de linha de tendência?
fonte