Qual é a história das plotagens de caixas e como o design de "caixas e bigodes" evoluiu?

19

Muitas fontes datam o clássico "enredo de caixa" de John Tukey e seu "enredo esquemático" de 1970. O projeto parece ter permanecido relativamente estático desde então, com a versão reduzida de Edward Tufte do enredo de caixa falhando em capturar, enquanto Os enredos para violino - embora sejam uma variante mais informativa do enredo em caixa - permanecem menos populares. A sugestão de Cleveland de que os bigodes se estendem até os percentis 10 e 90 tem alguns apoiadores, veja Cox (2009) , mas não é a norma.

Hadley Wickham e Lisa Stryjewski escreveram um artigo não publicado sobre a história dos gráficos de caixas, mas parece não cobrir os precursores históricos dos gráficos de caixas.

Então, como surgiu a atual e onipresente trama de "caixas e bigodes"? De que tipo de visualização de dados ele evoluiu, esses projetos anteriores tiveram vantagens significativas e por que eles parecem ter sido eclipsados ​​de maneira tão abrangente no uso pelo esquema de Tukey? Uma resposta ilustrada seria um bônus, mas ser útil a uma referência que mergulha historicamente mais profundamente do que Wickham e Stryjewski.

Referências

Silverfish
fonte
1
Alguma discussão relevante de vários precursores aqui: stats.stackexchange.com/questions/125521/… ... Tukey estava ciente do trabalho de Mary Spears, mas é possível que ele não tenha visto nenhum dos anteriores
Glen_b -Reinstate Monica
Obrigado @Glen_b, essa foi realmente a discussão que li que inspirou essa pergunta, mas levei quatro anos para me perguntar e não consegui acompanhar a discussão! (Lamentável que os comentários não aparecem na pesquisa do site, que é por isso que tentar obtê-lo em um Q & A adequada seria útil.)
Silverfish
1
Eu uso o google search com site:stats.stackexchange.comset para rastrear coisas nos comentários. Consegui lembrar de detalhes suficientes (que era uma discussão entre Nick e eu relacionada a boxplots e que eu havia mencionado Schmid) para conseguir o primeiro sucesso.
Glen_b -Reinstate Monica
1
Q1-1.5EuQRQ3+1.5EuQR3EuQRn.2,25EuQR
1
O github.com/hadley/boxplots-paper inclui muito material, como os relatórios de revisores anônimos de um periódico (? American Statistician_) (breve e desanimador) e revisões independentes e não solicitadas de David Hoaglin e de mim (ambas muito mais detalhadas).
Nick Cox

Respostas:

18

Resumo do CEO

A história é muito mais longa e mais complicada do que muitas pessoas pensam.

Sumário executivo

A história do que Tukey chamou de plotagem de caixas está complicada com a do que agora é chamado de plotagem de pontos ou faixas (dezenas de outros nomes) e com representações da função empírica quantil.

Os gráficos de caixas em formas amplamente atuais são mais conhecidos através do trabalho de John Wilder Tukey (1970, 1972, 1977).

Mas a idéia de mostrar a mediana e os quartis como resumos básicos - juntos, muitas vezes, mas nem sempre, com pontos mostrando todos os valores - remonta pelo menos aos diagramas de dispersão (muitos nomes de variantes) introduzidos pelo geógrafo Percy Robert Crowe (1933). Essas eram as receitas básicas dos geógrafos e usadas em muitos livros didáticos e em artigos de pesquisa a partir do final da década de 1930.

Bibby (1986, pp.56, 59) fez referências ainda anteriores a idéias semelhantes ensinadas por Arthur Lyon Bowley (mais tarde Sir Arthur) em suas palestras sobre 1897 e a sua recomendação (Bowley, 1910, p.62; 1952, p.73). ) para usar os valores mínimo e máximo e 10, 25, 50, 75 e 90% como base para o resumo gráfico.

Barras de alcance mostrando extremos e quartis são frequentemente atribuídos a Mary Eleanor Spear (1952), mas na minha leitura poucas pessoas citam Kenneth W. Haemer (1948). Os artigos de Haemer sobre gráficos estatísticos no Estatístico Americano, por volta de 1950, foram inventivos e têm mordida crítica e continuam valendo a pena reler. (Muitos leitores poderão acessá-los através do jstor.org.) Por outro lado, os livros de Spear (Spear 1969 é uma reformulação) eram acessíveis e sensatos, mas deliberadamente introdutórios, em vez de inovadores ou acadêmicos.

Variantes de gráficos de caixas nas quais os bigodes se estendem a percentis selecionados são mais comuns do que muitas pessoas parecem pensar. Novamente, parcelas equivalentes foram usadas pelos geógrafos a partir da década de 1930.

O que é mais original na versão de Tukey dos gráficos de caixas é, antes de tudo, critérios para identificar pontos nas caudas a serem plotadas separadamente e identificadas como merecedoras de consideração detalhada - e frequentemente sinalizando que uma variável deve ser analisada em uma escala transformada. Sua regra de ouro de 1,5 IQR surgiu apenas após muita experimentação. Em algumas mãos, ele sofreu uma regra rígida para excluir pontos de dados, que nunca foi a intenção de Tukey. Um nome enérgico e memorável - enredo de caixa - não causou danos ao garantir um impacto muito mais amplo dessas idéias. O diagrama de dispersão, ao contrário, é um termo monótono e sombrio.

A lista bastante longa de referências aqui é, possivelmente contrária às aparências, não pretendendo ser exaustiva. O objetivo é apenas fornecer documentação para alguns precursores e alternativas do gráfico da caixa. Referências específicas podem ser úteis para consultas detalhadas ou se estão perto do seu campo. Por outro lado, aprender sobre práticas em outros campos pode ser salutar. A experiência gráfica - e não apenas cartográfica - dos geógrafos tem sido subestimada.

Mais detalhes

As plotagens híbridas de caixas de pontos foram usadas por Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse e Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond e McCullagh (1974), Lewis (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild e Seber (2000), Quinn e Keough (2002), Young et al. (2006) e Hendry e Nielsen (2007) e muitos outros. Veja também Miller (1953, 1964).

O desenho de bigodes para percentis específicos, em vez de para pontos de dados em tantos IQR dos quartis, foi enfatizado por Cleveland (1985), mas antecipado por Matthews (1936) e Grove (1956) que plotaram a faixa interótil, ou seja, entre o primeiro e o sétimo octil, bem como o alcance e o alcance interquartil. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt e Johnson (2009, 2011) e Davino et al. (2014) apresentaram médias e mínimos, quartis, mediana e máximo. Schmid (1954) mostrou gráficos resumidos com mediana, quartis e 5 e 95% pontos. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) e Motulsky (2010, 2014, 2018) plotaram os bigodes para 5 e 95%. Morgan e Henrion (1990, pp.221, 241), Spence (2001, p.36) e Gotelli e Ellison (2004, 2013, pp.72, 110, 213, 416) bigodes plotados para 10% e 90% pontos. Harris (1999) mostrou exemplos de 5 e 95% e 10 e 90% de pontos. Altman (1991, pp.34, 63) e Greenacre (2016) atribuíram os bigodes a 2,5% e 97,5%. Reimann et al. (2008, pp.46-47) plotaram os bigodes para 5% e 95% e 2% e 98% pontos.

Parzen (1979a, 1979b, 1982) caixa hibridizada e plotagens de quantis como plotagens de caixas de quantil. Veja também (por exemplo) Shera (1991), Militký e Meloun (1993), Meloun e Militký (1994). Note, no entanto, que o gráfico de caixa quantil de Keen (2010) é apenas um gráfico de caixa com bigodes que se estendem até os extremos. Em contraste, os gráficos de caixas quantílicas do JMP são evidentemente gráficos de caixas com marcas de 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: ver Sall et al. (2014, p.143-4).

Aqui estão algumas notas sobre variantes de gráficos de caixas quantílicas.

pp,1-p-p,1-p

p,1-p

Pela literatura vista por mim, parece que nenhum desses tópicos - gráficos de caixas quantílicas ou as variantes posteriores (A) (B) (C) - se citam.

!!! em 3 de outubro de 2018, é necessário fornecer detalhes para algumas referências na próxima edição.

Altman, DG 1991. Estatística Prática em Pesquisa Médica. Londres: Chapman e Hall.

Bentley, JL 1985. Programming pearls: Selection. Comunicações do ACM 28: 1121-1127.

Bentley, JL 1988. Mais pérolas de programação: Confissões de um codificador. Reading, MA: Addison-Wesley.

Bibby, J. 1986. Notas para uma história do ensino de estatística. Edimburgo: John Bibby (Livros).

Bowley, AL 1910. Um Manual Elementar de Estatística. Londres: Macdonald e Evans. (sétima edição 1952)

Cleveland, WS 1985. Elementos de representação gráfica de dados. Monterey, CA: Wadsworth.

Crowe, PR 1933. A análise da probabilidade de precipitação: Um método gráfico e sua aplicação a dados europeus. Revista Geográfica Escocesa 49: 73-91.

Crowe, PR 1936. O regime de chuvas das planícies ocidentais. Revisão Geográfica 26: 463-484.

Davis, JC 2002. Estatística e Análise de Dados em Geologia. Nova York: John Wiley.

Dickinson, GC 1963. Mapeamento Estatístico e Apresentação de Estatística. Londres: Edward Arnold. (segunda edição 1973)

Dury, GH 1963. East Midlands e Peak. Londres: Thomas Nelson.

Agricultor, BH 1956. Precipitação e abastecimento de água na Zona Seca do Ceilão. In Steel, RW e CA Fisher (eds) Geographic Essays on British Tropical Lands. Londres: George Philip, 227-268.

Gregory, S. 1963. Métodos Estatísticos e o Geógrafo. Londres: Longmans. (edições posteriores 1968, 1973, 1978; editora posteriormente Longman)

Grove, AT 1956. Erosão do solo na Nigéria. In Steel, RW e CA Fisher (eds) Geographic Essays on British Tropical Lands. Londres: George Philip, 79-111.

Haemer, KW 1948. Gráfico de barras. American Statistician 2 (2): 23.

Hendry, DF e B. Nielsen. 2007. Modelagem Econométrica: Uma Abordagem de Verossimilhança. Princeton, NJ: Princeton University Press.

Hogg, WH 1948. Diagramas de dispersão das chuvas: uma discussão sobre suas vantagens e desvantagens. Geografia 33: 31-37.

Ibrekk, H. e MG Morgan. 1987. Comunicação gráfica de quantidades incertas a pessoas não técnicas. Análise de risco 7: 519-529.

Johnson, BLC 1975. Bangladesh. Londres: Heinemann Educational.

Keen, KJ 2010. Gráficos para Estatística e Análise de Dados com R. Boca Raton, FL: CRC Press. (2ª edição 2018)

Lewis, CR 1975. A análise das mudanças no status urbano: um estudo de caso em Mid-Wales e na média região de Gales. Transações do Institute of British Geographers 64: 49-65.

Martinez, WL, AR Martinez e JL Solka. 2011. Análise Exploratória de Dados com MATLAB. Boca Raton, FL: CRC Press.

Matthews, HA 1936. Uma nova visão de algumas chuvas familiares indianas. Revista Geográfica Escocesa 52: 84-97.

Matthews, JA 1981. Abordagens quantitativas e estatísticas da geografia: um manual prático. Oxford: Pergamon.

Meloun, M. e J. Militký. 1994. Tratamento de dados assistido por computador em quimiometria analítica. I. Análise exploratória de dados univariados. Chemical Papers 48: 151-157.

Militký, J. e M. Meloun. 1993. Algumas ajudas gráficas para análise de dados exploratória univariada. Analytica Chimica Acta 277: 215-221.

Miller, AA 1953. A pele da terra. Londres: Methuen. (2ª edição 1964)

Monkhouse, FJ e HR Wilkinson. 1952. Mapas e diagramas: sua compilação e construção. Londres: Methuen. (edições posteriores 1963, 1971)

Morgan, MG e M. Henrion. 1990. Incerteza: Um guia para lidar com a incerteza na análise quantitativa de riscos e políticas. Cambridge: Cambridge University Press.

Myatt, GJ 2007. Compreendendo os dados: um guia prático para análise de dados exploratórios e mineração de dados. Hoboken, NJ: John Wiley.

Myatt, GJ e Johnson, WP 2009. Compreendendo os dados II: Um guia prático para visualização de dados, métodos avançados de mineração de dados e aplicativos. Hoboken, NJ: John Wiley.

Myatt, GJ e Johnson, WP 2011. Compreendendo os dados III: um guia prático para projetar visualizações interativas de dados. Hoboken, NJ: John Wiley.

Ottaway, B. 1973. Diagramas de dispersão: uma nova abordagem para a exibição de datas de carbono-14. Arqueometria 15: 5-12.

Parzen, E. 1979a. Modelagem de dados estatísticos não paramétricos. Journal, American Statistical Association 74: 105-121.

Parzen, E. 1979b. Uma perspectiva de função quantil-densidade em estimativas robustas. Em Launer, RL e GN Wilkinson (eds) Robustness in Statistics. Nova York: Academic Press, 237-258.

Parzen, E. 1982. Modelagem de dados usando funções quantil e densidade-quantil. Em Tiago de Oliveira, J. e Epstein, B. (eds) Alguns Avanços Recentes em Estatística.Londres: Academic Press, 23-52.

Quinn, GP e MJ Keough. 2002. Projeto Experimental e Análise de Dados para Biólogos. Cambridge: Cambridge University Press.

Reimann, C., P. Filzmoser, RG Garrett e R. Dutter. 2008. Análise Estatística de Dados Explicada: Estatística Ambiental Aplicada com R. Chichester: John Wiley.

Sall, J., A. Lehman, M. Stephens e L. Creighton. 2014. JMP Start Statistics: Um Guia para Estatística e Análise de Dados Usando o JMP. Cary, NC: Instituto SAS.

Shera, DM 1991. Alguns usos de gráficos quantílicos para melhorar a apresentação dos dados. Ciência da Computação e Estatística 23: 50-53.

Spear, ME 1952. Estatística de gráficos. Nova York: McGraw-Hill.

Spear, ME 1969. Técnicas práticas de gráficos. Nova York: McGraw-Hill.

Tukey, JW 1970.
Análise exploratória de dados. Edição Preliminar Limitada. Volume I. Reading, MA: Addison-Wesley.

Tukey, JW 1972. Alguns displays gráficos e semi-gráficos. Em Bancroft, TA e Brown, SA (eds) Statistical Papers, em homenagem a George W. Snedecor. Ames, IA: Iowa State University Press, 293-316. (também acessível em http://www.edwardtufte.com/tufte/tukey )

Tukey, JW 1977. Análise Exploratória de Dados. Reading, MA: Addison-Wesley.

Wild, CJ e GAF Seber. 2000. Chance Encounters: Um Primeiro Curso em Análise de Dados e Inferência. Nova York: John Wiley.

Nick Cox
fonte
Eu tenho outro material sobre parcelas de percentil de caixa, parcelas de montanha e outras formas híbridas, para serem adicionadas mais tarde.
Nick Cox
Realmente aprecio esta resposta, obrigado Nick - ansioso pelas adições sobre as alternativas e híbridos. Eu acho que é provavelmente justo dizer "caixa parcelas 'e amigos' formam uma 'família' de visualizações de dados, embora eu não sei o que a família deve ser chamado
Silverfish
Obrigado! se a posse de linhas ou outros marcadores indicando mediana e quartis define uma caixa, então havia plotagens de caixas muito antes de Tukey nomeá-las, e estou confiante de que ele nunca alegou o contrário. No entanto, muitas histórias em miniatura nos livros didáticos e em outros lugares parecem enfáticas nesse ponto; principalmente, isso é apenas um meme repetido sem evidências como a história de que lemmings pulam de penhascos como suicídio coletivo. Muitas das alternativas aos gráficos de caixas nem mostram uma caixa em nenhum sentido; portanto, o campo é aberto para incluir qualquer representação gráfica de distribuições univariadas.
Nick Cox