Como deve ser elaborado este gráfico da BBC (correlação Brexit entre educação e resultados)?

8

A BBC analisou mais dados do referendo do Brexit; o primeiro gráfico em seu artigo chamou minha atenção:

insira a descrição da imagem aqui

Parecia estranho dividir o eixo x em 50%. Certamente isso deveria ter sido dividido na mediana dos dados? (Ou a média se os dados eram normalmente distribuídos; mas, olhando de soslaio, isso não parece ser o caso aqui.)

(Eles não divulgaram seus dados, mas um rápido google sugere que os graduados representam aproximadamente 25% da população adulta, e isso combina com os olhos do gráfico, então eu vou com isso.)

Mas isso me fez pensar em como desenhar esse gráfico da maneira mais objetiva possível. Seria melhor manter o eixo x linear e ter as duas caixas à direita três vezes mais largas? Ou mantenha as caixas do mesmo tamanho e esmague e estique o eixo x, para que cada extensão de pixel N cubra o mesmo número de pontos de dados? Ou alguma outra coisa?

Darren Cook
fonte
5
Não vejo nenhum problema real aqui. Deixar> Permanecer é altamente pertinente para considerar o resultado. Mais graduados do que não é compreensível. Se um limiar diferente tivesse sido escolhido para este último, alguns outros leitores poderiam muito bem estar confusos. Ao contrário de uma resposta, a razão pela qual nenhum ponto de dados é mostrado em um quadrante é que nenhum pertence a ele; o que há de enganoso lá? É discutível que todo sombreamento distraia, mas há uma tentativa de orientar a interpretação.
Nick Cox
4
Observe que, provavelmente para a enorme surpresa de quem tem uma mente estatística, os gráficos de dispersão são amplamente considerados no jornalismo de dados e em campos relacionados como muito difíceis para o público em geral!
Nick Cox
2
Esse enredo é geralmente bem feito, como vários observaram. A única crítica real que vem imediatamente à atenção é a superposição dos pontos no centro: isso dificulta a avaliação do número de pontos ali, o que torna a trama um pouco menos útil do que poderia ser.
whuber

Respostas:

3

Penso que esta versão do FT de dados semelhantes serve como uma resposta decente sobre como apresentar os dados de maneira justa.

insira a descrição da imagem aqui

Em vez de absolutos em uma escala de 0 a 100, ele aumenta o zoom para se concentrar na mudança. As linhas ajudam a verificar o padrão que é difícil de avaliar apenas nos pontos por causa de toda a superação. (Quantas das divisões 1070 você consegue distinguir no original?)

xan
fonte
1
Obrigado. Gosto dessa ideia: quando a maioria dos itens de uma parte do gráfico tiver algo em comum (área geográfica, aqui), destaque todos os itens com esse recurso. (As linhas de tendência também funcionam muito bem neste caso.)
Darren Cozinhe
10

Concordo que a coloração dos quadrantes em rosa é amplamente cosmética, mas no geral vejo isso como um gráfico informativo claro. A mensagem é imediatamente aparente e não é enganosa. A BBC traçou os pontos de dados reais. Eles não manipularam os eixos x ou y. A anotação na plotagem está correta e não é exagerada. Eles não adicionaram linhas de tendência falsas ou qualquer outra interpretação desnecessária. Comparado à maioria dos dados apresentados na mídia, esse gráfico é excelente - é um bom exemplo de como os dados falam por si. Em suma, acho que você está pensando demais. Não duvido que você possa encontrar algumas maneiras de melhorar o enredo, mas simples é geralmente o melhor.

Gordon Smyth
fonte
4
+1 desde que eu concordo. Eu acrescentaria que a divisão em mediana ou média não é mais arbitrária do que em 50%, depende apenas do que exatamente você deseja mostrar.
Tim
4

Concordo que o gráfico é enganoso, no sentido de pretender mostrar que não há pontos de dados no quadrante categoricamente descritos como% de votos altos,%% de graduados. O que é alto e baixo se torna relativo aos limites do eixo, não aos dados reais. Embora teoricamente seja possível ter uma ala com população com 100% de ensino superior, essa ala não existe. Você não precisa inventar pontos de dados para produzir um gráfico enganoso: um eixo quebrado que mostra mudanças exageradas é um exemplo que não é muito diferente deste.

Uma maneira mais objetiva de visualizar esses dados seria definir os limites do eixo do gráfico de dispersão no máximo / min dos dados e depois dividir o gráfico em quadrantes de uma área igual.

A razão pela qual eu iria para a mesma área de quadrantes é para que os quadrantes mostrem uma relação linear equivalente entre variáveis. As descrições categóricas dos quadrantes, "alto" e "baixo" são tratadas como equivalentes, de modo que as áreas também devem ser.

Se, em vez disso, quisermos usar os quadrantes como outra maneira de descrever quantitativamente os dados, poderemos definir as bordas do quadrante na média de cada variável, conforme mostrado em Data Visualization com exemplos R: 100 (disponível para visualização no Google Livros, p283.286).

Para adicionar outra camada analítica a uma visualização de gráfico de dispersão, podemos usar a cor e o tamanho dos pontos. Por exemplo, a cor pode ser usada para separar cidades universitárias das demais, mostrar a participação dos eleitores em um gradiente ou destacar os resultados das Eleições Gerais para essas enfermarias. Não tenho certeza se o tamanho será eficaz com tantos pontos de dados, mas você pode investigar diferentes faixas populacionais, como mais de 65 anos, e como elas são representadas nos dados.

A meu ver, há também duas advertências importantes a serem consideradas ao analisar este gráfico: primeiro, que conta todos os graduados, independentemente de terem votado no referendo ou não, e segundo, que inclui graduados residentes com passaportes da UE que não pôde votar no referendo (supondo que os dados de origem sejam baseados no Censo).

gherka
fonte
Obrigado. O uso de max e min não estaria muito longe daqui, mas com uma distribuição de cauda longa ou uma irregularidade irritante (por exemplo, você pode imaginar que uma cidade universitária pode ter uma ala que atinge 80 +%), ainda pode distorcer. Você ainda iria sempre com min / max e então quadrantes da área par?
Darren Cozinhe
Eu editei minha resposta para explicar por que eu usaria áreas pares neste caso. Se a distribuição for de cauda longa, provavelmente não seria apropriado usar quadrantes para categorizar os resultados dessa maneira.
gherka
2

Eu concordo, muito enganador. Eu eliminaria o fundo colorido todos juntos.

Se você insiste em colori-lo, talvez um gradiente corresponda à densidade populacional? Ou seja, a cor do plano de fundo fica mais escura à medida que mais alas caem na categoria "educado versus sair"

Definitivamente, há uma tendência, acho que ninguém argumentaria contra isso - talvez o autor deva seguir algum tipo de linha de tendência?

Mohammad Athar
fonte
3
Concordo que uma linha de tendência (provavelmente curva) é uma adição natural para os estatisticamente preocupados, mas este é um gráfico na mídia de massa.
Nick Cox