Quantificando QQ plot

10

O qq-plot pode ser usado para visualizar como duas distribuições são semelhantes (por exemplo, visualizar a semelhança de uma distribuição com uma distribuição normal, mas também para comparar duas distribuições de dados da biblioteca de arte). Existem estatísticas que geram uma medida numérica mais objetiva que represente sua similaridade (preferencialmente na forma normalizada (0 <= x <= 1))? O coeficiente de Gini é, por exemplo, usado em economia ao trabalhar com curvas de Lorenz; existe algo para plotagens QQ?

Ampleforth
fonte

Respostas:

8

Como eu disse em resposta ao seu comentário sobre sua pergunta anterior, confira o teste de Kolmogorov-Smirnov. Ele usa a distância absoluta máxima entre duas funções de distribuição cumulativa (concebida como a distância absoluta máxima da curva no gráfico QQ da linha de 45 graus) como estatística. O teste KS pode ser encontrado em R usando o comando ks.test()na biblioteca 'stats'. Aqui estão mais informações sobre seu uso de R.

Charlie
fonte
Observe que (como eu o entendo), o teste KS é para testar dados empíricos em relação a uma distribuição a priori. Não é apropriado comparar duas distribuições empíricas, nem comparar dados empíricos com uma distribuição a priori cujos valores de parâmetros foram estimados a partir dos dados empíricos.
Mike Lawrence
4
@ Mike, você pode usar o teste KS para comparar duas distribuições empíricas, ver a resposta antes de Charlie e comentários stats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/...
Andy W
@ Andy, Ah, peguei o ponto 3 de itl.nist.gov/div898/handbook/eda/section3/eda35g.htm como tendo o corolário de que você não pode comparar duas CDFs empíricas, mas vejo que minha suposição não foi apropriado. É bom saber, obrigado!
Mike Lawrence
2
No entanto, o ponto 3 implica que você não pode usar o KS para testar se seus dados são provenientes de uma distribuição normal com média e sd estimados a partir dos dados . Este é um erro popular entre os estudantes de psicologia que conheço.
precisa saber é o seguinte
11
(+1) O aspecto superior desta resposta é que a estatística KS pode ser lida diretamente no gráfico QQ.
whuber
2

I recentemente utilizado a correlação entre a CDF empírica ea CDF equipada para quantificar goodness-of-fit, e me pergunto se essa abordagem também pode ser útil no caso atual, que como eu entendo que envolve a comparação de dois conjuntos de dados empíricos. A interpolação pode ser necessária se houver um número diferente de observações entre os conjuntos.

Mike Lawrence
fonte
Seu trabalho inclui números muito bons :) #
21110 chl
@chi: Todos eles foram criados em R usando o ggplot2. É um fantástico sistema de produção gráfica!
Mike Lawrence
O que você quer dizer com CDF equipado?
Ampleforth
@ Ampleforth, nesse artigo, eu ajusto uma distribuição aos dados empíricos, então, por "CDF ajustado", eu quis dizer o CDF teórico da distribuição ajustada. Desculpe, eu vejo como eu poderia ter sido mais claro!
Mike Lawrence
Oh, por favor, não peça desculpas. Minha falta de estatísticas é bastante grande e esse é o único problema aqui;) Também não li seu artigo, mas apenas olhei através de seus gráficos que realmente gostei.
Ampleforth
1

Eu diria que a maneira mais ou menos canônica de comparar duas distribuições seria um teste qui-quadrado. Porém, a estatística não é normalizada e depende de como você escolhe os compartimentos. O último ponto, é claro, pode ser visto como um recurso, não um bug: a escolha de posições apropriadas permite procurar mais de perto a semelhança nas caudas do que no meio das distribuições, por exemplo.

Stephan Kolassa
fonte
1

Uma medida bastante direta da "proximidade" da linearidade em um gráfico de QQ seria uma estatística de teste de Shapiro-Francia (que está intimamente relacionada ao Shapiro-Wilk mais conhecido e pode ser considerada como uma simples aproximação a ele).

A estatística Shapiro-Francia é a correlação ao quadrado entre os valores dos dados ordenados e as estatísticas de ordem normal esperada (às vezes denominadas "quantis teóricos") - ou seja, deve ser o quadrado da correlação que você vê no gráfico, um argumento bastante direto medida sumária.

(O Shapiro-Wilk é semelhante, mas leva em consideração as correlações entre as estatísticas da ordem; tem uma interpretação semelhante à Shapiro-Francia e é praticamente tão útil quanto um resumo do gráfico QQ.)

De qualquer maneira, para um resumo de número único do que o gráfico QQ mostra, um deles pode ser uma maneira adequada de resumir o gráfico.

Pessoalmente, costumo procurar mais desvio da linearidade do que proximidade (o que sugeriria olhar para ). Essa escala tende a deixá-lo com valores razoavelmente constantes para uma determinada quantidade de não normalidade.1W

1 - W ) n n ( 1 - W )n1W)nn(1W)nnnlog(n)log(n)n

Glen_b -Reinstate Monica
fonte