Eu me pego cada vez mais lutando para definir pontos de interrupção ao exibir mapas choropleth (também conhecidos como temáticos) para serem visualizados por outros . Alguém tem alguma referência sugerida que ajude a guiar, tanto como escolher o tipo de escala usada quanto o número apropriado de pontos de interrupção? Em particular para o número de posições, só vi argumentos para um número limite (por exemplo, você não deve usar mais que 5).
Para ser mais específico sobre o que estou procurando, a maioria das referências que encontrei sobre o assunto são semelhantes ao documento mencionado por julien neste post , e só estou procurando uma discussão mais aprofundada sobre o assunto.
Alguns casos de uso específicos são frequentes (para exemplos de minhas lutas);
- Ao exibir dados com uma grande inclinação à direita, geralmente hesito em exibir uma escala exponencial. Receio (para as audiências para as quais normalmente estou exibindo mapas) isso causaria uma quantidade maior de carga cognitiva ao ler a escala e ao mapeamento dos valores reais dos atributos para as cores. Meus medos estão incorretos? Também para esses tipos de distribuição, acho difícil justificar qualquer número específico de caixas.
- Ao exibir muitos mapas múltiplos pequenos, como escolho uma escala apropriada que permita visualizar relacionamentos efetivamente dentro e entre os pequenos múltiplos? Meu padrão de fato, quando as escalas de atributo variam em grande parte, é usar quintis em cada distribuição separada. Os quintis são muitas classificações e estão criando uma carga cognitiva muito grande para comparar entre os painéis? Presumo que as pessoas entendam que classificações quantílicas são equivalentes a classificações (e, portanto, quando classificadas dessa maneira ajudam na interpretação entre painéis), essa suposição está correta?
Inicialmente, escrevi um parágrafo tentando descrever os objetivos de tais mapas, mas suspeito que meus objetivos sejam bem típicos, por isso não era necessário. A única coisa a esclarecer novamente é que elas são para visualização de outras pessoas (como em relatórios, publicações) e não são realmente para minha própria análise exploratória de dados (embora eu suspeite que bons conselhos devam ser traduzidos para qualquer uma). Talvez uma boa referência possa descrever os objetivos em potencial de tais mapas e as compensações associadas ao uso de diferentes esquemas de classificação. Eu estaria interessado em referências específicas e gerais.
fonte
Respostas:
Uma ótima referência, não citada o suficiente, é "How Maps Works", de Alan M. McEachren (The Guilford Press, 1995/2004). Não é um guia rápido, mas uma reflexão abrangente sobre como os mapas são vistos e compreendidos, com base em uma pesquisa científica realmente impressionante e no conhecimento dos profissionais.
fonte
Recentemente, comprei Cartografia Temática e Visualização ( Slocum et al., 2005 ), e apenas deslizá-la parece ser mais do que suficiente para o meu pedido de referências gerais sobre o tema da escolha de caixas. Certamente me dará muito o que ler por algum tempo, e não foi uma decisão muito árdua de comprar (há muitas cópias baratas mais antigas por aí).
Nota: Não acho que recomendo o How Maps Work de MacEachren para essa pergunta em particular. O livro é tão monolítico que eu certamente esqueci, mas não me lembro de nenhuma discussão direta sobre a escolha do número de caixas (pelo menos não tão direta quanto o capítulo dedicado a ela no livro Slocum). Se alguma coisa que eu acho que me lembro dele mencionando o tópico está um pouco exagerada e não chegou a nenhuma conclusão real, mas eu certamente o recomendaria como uma referência geral para visualização de dados.
Há uma quantidade louca de literatura sobre o assunto, e terei que fazer um estudo mais aprofundado para ver se consigo encontrar uma resposta mais satisfatória para classificar a distribuição distorcida. E voltarei a postar se tiver algo mais substantivo a dizer.
Mas, para a segunda pergunta sobre a visualização de pequenos mapas múltiplos, deparei-me recentemente com um artigo de Cynthia Brewer e Linda Pickle, Avaliação de métodos para classificação de dados epidemiológicos em mapas de Choropleth em séries (PDF aqui ), que é exatamente direcionado à minha pergunta.
Em resumo, experimentos sugerem que os quantis são a maneira mais útil de representar uma série de pequenos mapas múltiplos, tanto pela facilidade de interpretação (como sugeri na pergunta) quanto pelo fato de que eles produzem mapas de área iguais em termos de preenchimento quando os polígonos são aproximadamente do mesmo tamanho. Talvez isso não seja óbvio até que você veja um exemplo contrário, abaixo colei uma imagem de alguns pequenos mapas múltiplos, nos quais as classificações são restritas a serem iguais em toda a série de taxas diferentes de câncer (na página 674 do artigo citado).
Como a incidência de doença hepática é muito menor que a DPOC, todos os municípios dos principais mapas tendem a cair nas classificações mais baixas. Se você não pode discriminar padrões dentro de um dos mapas, é improvável que distinga padrões entre mapas! É claro que, se for razoável, as classificações devem ser consistentes, mas isso é razoável apenas para alguns mapas de comparação. Também quanto ao número de caixas, eles escolheram 7 em seus experimentos.
fonte
veja esta ref. Otimizando a seleção de um número de classes de mapas de coropletas
dentro
T. Bandrova et ai. (eds.), Cartografia Temática para a Sociedade, Notas de Palestra em Geoinformação e Cartografia, DOI: 10.1007 / 978-3-319-08180-9_6, Springer International Publishing Switzerland 2014
fonte