Benefícios do uso de gráficos QQ sobre histogramas

22

Nesse comentário , Nick Cox escreveu:

A divisão em classes é um método antigo. Embora os histogramas possam ser úteis, o moderno software estatístico facilita e aconselha a adequação das distribuições aos dados brutos. Binning simplesmente joga fora os detalhes que são cruciais para determinar quais distribuições são plausíveis.

O contexto deste comentário sugere o uso de gráficos QQ como um meio alternativo para avaliar o ajuste. A declaração parece muito plausível, mas eu gostaria de saber sobre uma referência confiável que apóie essa declaração. Existe algum trabalho que faça uma investigação mais aprofundada desse fato, além de um simples "bem, isso parece óbvio"? Alguma comparação sistemática real de resultados ou gostos?

Eu também gostaria de ver até que ponto esse benefício das plotagens QQ sobre os histogramas pode ser estendido, para outras aplicações que não o modelo. As respostas a esta pergunta concordam que “um QQ-plot […] apenas diz que“ algo está errado ””. Estou pensando em usá-los como uma ferramenta para identificar a estrutura nos dados observados em comparação com um modelo nulo e me pergunto se existem procedimentos estabelecidos para usar QQ-plot (ou seus dados subjacentes) para não apenas detectar, mas também descrever não aleatoriamente estrutura nos dados observados. Referências que incluem essa direção seriam, portanto, particularmente úteis.

MvG
fonte
4
stats.stackexchange.com/questions/51718/… já responde metade da pergunta, ou seja, por que é melhor evitar os histogramas, não importa com o que você os substitua.
Gala

Respostas:

25

O papel canônico aqui foi

Wilk, MB e R. Gnanadesikan. 1968. Métodos de plotagem de probabilidade para a análise de dados. Biometrika 55: 1-17

e ainda paga leitura próxima e repetida.

Um tratamento lúcido com muitos bons exemplos foi dado por

Cleveland, WS 1993. Visualização de dados. Summit, NJ: Hobart Press.

e vale a pena mencionar o mais introdutório

Cleveland, WS 1994. Os elementos de representação gráfica de dados. Summit, NJ: Hobart Press.

Outros textos que contêm exposição razoável a essa abordagem incluem

Davison, AC 2003. Modelos Estatísticos. Cambridge: Cambridge University Press.

Rice, JA 2007. Estatística matemática e análise de dados. Belmont, CA: Duxbury.

Além disso, não sei de nada do que você pergunta. Depois de ver o ponto das parcelas quantil-quantil, mostrar em detalhes que os histogramas são uma alternativa de segunda categoria não parece interessante nem útil, como se estivesse atirando peixe em um barril.

Mas eu resumiria assim:

  1. Binning suprime detalhes, e os detalhes geralmente são importantes. Isso pode se aplicar não apenas exatamente ao que está acontecendo nas caudas, mas também ao que está acontecendo no meio. Por exemplo, granularidade ou multimodalidade podem ser importantes, assim como assimetria ou peso da cauda.

  2. O binning exige decisões sobre a origem e a largura do bin, o que pode afetar poderosamente a aparência dos histogramas; portanto, é difícil ver o que é real e o que é um efeito colateral das escolhas. Se o seu software tomar essas decisões por você, os problemas permanecem. (Por exemplo, as opções de compartimento padrão são geralmente projetadas para que você não use "muitos compartimentos", ou seja, com o motivo de suavizar um pouco.)

  3. O problema gráfico e psicológico de comparar dois histogramas é mais complicado que o de julgar o ajuste de um conjunto de pontos em uma linha reta.

-média) / DP. Se os quantis são apenas as estatísticas da ordem, tudo o que você precisa fazer é aplicar a transformação, como por exemplo, o logaritmo do máximo é identicamente o máximo dos logaritmos, e assim por diante. (De maneira trivial, a reciprocidade inverte a ordem.) Mesmo se você plotar quantis selecionados com base em estatísticas de duas ordens, geralmente eles são apenas interpolados entre dois valores de dados originais e o efeito da interpolação é trivial. Por outro lado, os histogramas no log ou em outras escalas transformadas exigem uma nova decisão sobre a origem e a largura da bandeja, o que não é especialmente difícil, mas não é trivial. Pode-se dizer o mesmo da estimativa de densidade como uma maneira de resumir a distribuição.

Nick Cox
fonte
8

Veja o trabalho de William S. Cleveland.

A visualização de dados é provavelmente a melhor fonte única, mas também a sua página da web , especialmente a bibliografia e a página de visualização de dados (incluindo o código S + adaptável para uso R).

Cleveland tem muitas razões pelas quais as plotagens QQ são boas e os histogramas não são tão bons.

Peter Flom - Restabelece Monica
fonte
7

Depois que você aprende como usá-los, os gráficos de QQ permitem identificar distorção, força excessiva, forma geral, picos e assim por diante, os mesmos tipos de recursos que as pessoas tendem a usar histogramas para tentar avaliar.

As estimativas de densidade de kernel ou de log-spline podem evitar alguns dos problemas com histogramas que Gala apontou nos comentários.

Considere este exemplo nesse link:

No entanto, a menos que você tenha muita sorte, às vezes não se percebe discrição inesperada com um histograma e até mesmo com as estimativas de densidade suave (porque são suaves, naturalmente), mas muitas vezes serão óbvias nas plotagens de QQ. As estimativas de densidade suave - a menos que sejam tratadas especialmente - também podem ter problemas com variáveis ​​delimitadas.

Os histogramas e as estimativas de densidade suave dependem de uma aproximação aos dados - o que pode ser útil -, mas também podem apresentar artefatos ou coisas de alguma forma deturpadas.

Glen_b -Reinstate Monica
fonte