O qq-plot pode ser usado para visualizar como duas distribuições são semelhantes (por exemplo, visualizar a semelhança de uma distribuição com uma distribuição normal, mas também para comparar duas distribuições de dados da biblioteca de arte). Existem estatísticas que geram uma medida numérica mais objetiva que represente sua similaridade (preferencialmente na forma normalizada (0 <= x <= 1))? O coeficiente de Gini é, por exemplo, usado em economia ao trabalhar com curvas de Lorenz; existe algo para plotagens QQ?
fonte
I recentemente utilizado a correlação entre a CDF empírica ea CDF equipada para quantificar goodness-of-fit, e me pergunto se essa abordagem também pode ser útil no caso atual, que como eu entendo que envolve a comparação de dois conjuntos de dados empíricos. A interpolação pode ser necessária se houver um número diferente de observações entre os conjuntos.
fonte
Eu diria que a maneira mais ou menos canônica de comparar duas distribuições seria um teste qui-quadrado. Porém, a estatística não é normalizada e depende de como você escolhe os compartimentos. O último ponto, é claro, pode ser visto como um recurso, não um bug: a escolha de posições apropriadas permite procurar mais de perto a semelhança nas caudas do que no meio das distribuições, por exemplo.
fonte
Uma medida bastante direta da "proximidade" da linearidade em um gráfico de QQ seria uma estatística de teste de Shapiro-Francia (que está intimamente relacionada ao Shapiro-Wilk mais conhecido e pode ser considerada como uma simples aproximação a ele).
A estatística Shapiro-Francia é a correlação ao quadrado entre os valores dos dados ordenados e as estatísticas de ordem normal esperada (às vezes denominadas "quantis teóricos") - ou seja, deve ser o quadrado da correlação que você vê no gráfico, um argumento bastante direto medida sumária.
(O Shapiro-Wilk é semelhante, mas leva em consideração as correlações entre as estatísticas da ordem; tem uma interpretação semelhante à Shapiro-Francia e é praticamente tão útil quanto um resumo do gráfico QQ.)
De qualquer maneira, para um resumo de número único do que o gráfico QQ mostra, um deles pode ser uma maneira adequada de resumir o gráfico.
Pessoalmente, costumo procurar mais desvio da linearidade do que proximidade (o que sugeriria olhar para ). Essa escala tende a deixá-lo com valores razoavelmente constantes para uma determinada quantidade de não normalidade.1−W′
1 - W ′ ) n n ( 1 - W ′ )n 1−W′) n n(1−W′) n n n log(n) log(n)−−−−−√ n
fonte