Gráficos PP vs. Gráficos QQ

39

Qual é a diferença entre gráficos de probabilidade, gráficos de PP e gráficos de QQ ao tentar analisar uma distribuição ajustada dos dados?

probability data-visualization goodness-of-fit qq-plot kay
fonte

4

Parece que a Wikipedia pode ajudá-lo com este: gráfico de probabilidade . Gráfico de QQ , gráfico de PP . Se você tiver uma pergunta mais específica, esclareça!

vector07

Obrigado, acho que estava confundindo o gráfico PP e o gráfico de probabilidade!

kay

41

Como @ vector07 observa , o gráfico de probabilidade é a categoria mais abstrata da qual os pp- plot e qq- plot são membros. Assim, discutirei a distinção entre os dois últimos. A melhor maneira de entender as diferenças é pensar em como elas são construídas e entender que você precisa reconhecer a diferença entre os quantis de uma distribuição e a proporção da distribuição pela qual você passou ao atingir um determinado quantil. Você pode ver o relacionamento entre eles plotando a função de distribuição cumulativa (CDF) de uma distribuição. Por exemplo, considere a distribuição normal padrão:

insira a descrição da imagem aqui

Vemos que aproximadamente 68% do eixo y (região entre linhas vermelhas) corresponde a 1/3 do eixo x (região entre linhas azuis). Isso significa que, quando usamos a proporção da distribuição pela qual passamos para avaliar a correspondência entre duas distribuições (ou seja, usamos um gráfico pp), teremos muita resolução no centro das distribuições, mas menos em as caudas. Por outro lado, quando usamos os quantis para avaliar a correspondência entre duas distribuições (isto é, usamos um gráfico qq), obteremos uma resolução muito boa nas caudas, mas menos no centro. (Como os analistas de dados geralmente estão mais preocupados com as caudas de uma distribuição, que terão mais efeito na inferência, por exemplo, gráficos qq são muito mais comuns que gráficos pp).

Para ver esses fatos em ação, analisarei a construção de um gráfico de pp e um gráfico de qq. (Também passo pela construção de um gráfico de qq verbalmente / mais devagar aqui: o gráfico de QQ não corresponde ao histograma .) Não sei se você usa R, mas espero que seja auto-explicativo:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

insira a descrição da imagem aqui

Infelizmente, esses gráficos não são muito distintos, porque há poucos dados e estamos comparando um verdadeiro normal à distribuição teórica correta; portanto, não há nada de especial para ver no centro ou nas caudas da distribuição. Para demonstrar melhor essas diferenças, planto uma distribuição t (de cauda gorda) com 4 graus de liberdade e uma distribuição bimodal abaixo. As caudas gordas são muito mais distintas no gráfico qq, enquanto a bi-modalidade é mais distinta no gráfico pp.

insira a descrição da imagem aqui

- Reinstate Monica
fonte

14

@AleksandrH Agradecemos sua preocupação com os alunos. Porém, sua suposição implícita de que este site é apenas para estudantes iniciantes em estatística está incorreta; e sua insinuação de que "respostas completas" são inapropriadas para os alunos simplesmente não resiste à realidade, como muitas respostas "completas" neste site atestarão. Uma maneira mais construtiva de expressar sua reclamação é por exemplo: mostre-nos como melhorar nossas respostas e inspire-nos a imitá-lo, postando aqui uma resposta que atenda aos seus padrões para atender às necessidades dos novos alunos.

whuber

12

Aqui está uma definição de v8doc.sas.com :

Um gráfico de PP compara a função empírica de distribuição cumulativa de um conjunto de dados com uma função teórica especificada de distribuição cumulativa F (·). Um gráfico QQ compara os quantis de uma distribuição de dados com os quantis de uma distribuição teórica padronizada de uma família especificada de distribuições.

No texto, eles também mencionam:

diferenças quanto à maneira como os gráficos PP e QQ são construídos e interpretados.
vantagens de usar um ou outro, em relação à comparação de distribuições empíricas e teóricas.

Referência :

SAS Institute Inc., SAS OnlineDoc®, Versão 8, Cary, NC: SAS Institute Inc., 1999

Andre Silva
fonte

Gráficos PP vs. Gráficos QQ

Respostas: