Qual é a diferença entre gráficos de probabilidade, gráficos de PP e gráficos de QQ ao tentar analisar uma distribuição ajustada dos dados?
39
Qual é a diferença entre gráficos de probabilidade, gráficos de PP e gráficos de QQ ao tentar analisar uma distribuição ajustada dos dados?
Respostas:
Como @ vector07 observa , o gráfico de probabilidade é a categoria mais abstrata da qual os pp- plot e qq- plot são membros. Assim, discutirei a distinção entre os dois últimos. A melhor maneira de entender as diferenças é pensar em como elas são construídas e entender que você precisa reconhecer a diferença entre os quantis de uma distribuição e a proporção da distribuição pela qual você passou ao atingir um determinado quantil. Você pode ver o relacionamento entre eles plotando a função de distribuição cumulativa (CDF) de uma distribuição. Por exemplo, considere a distribuição normal padrão:
Vemos que aproximadamente 68% do eixo y (região entre linhas vermelhas) corresponde a 1/3 do eixo x (região entre linhas azuis). Isso significa que, quando usamos a proporção da distribuição pela qual passamos para avaliar a correspondência entre duas distribuições (ou seja, usamos um gráfico pp), teremos muita resolução no centro das distribuições, mas menos em as caudas. Por outro lado, quando usamos os quantis para avaliar a correspondência entre duas distribuições (isto é, usamos um gráfico qq), obteremos uma resolução muito boa nas caudas, mas menos no centro. (Como os analistas de dados geralmente estão mais preocupados com as caudas de uma distribuição, que terão mais efeito na inferência, por exemplo, gráficos qq são muito mais comuns que gráficos pp).
Para ver esses fatos em ação, analisarei a construção de um gráfico de pp e um gráfico de qq. (Também passo pela construção de um gráfico de qq verbalmente / mais devagar aqui: o gráfico de QQ não corresponde ao histograma .) Não sei se você usa R, mas espero que seja auto-explicativo:
Infelizmente, esses gráficos não são muito distintos, porque há poucos dados e estamos comparando um verdadeiro normal à distribuição teórica correta; portanto, não há nada de especial para ver no centro ou nas caudas da distribuição. Para demonstrar melhor essas diferenças, planto uma distribuição t (de cauda gorda) com 4 graus de liberdade e uma distribuição bimodal abaixo. As caudas gordas são muito mais distintas no gráfico qq, enquanto a bi-modalidade é mais distinta no gráfico pp.
fonte
Aqui está uma definição de v8doc.sas.com :
No texto, eles também mencionam:
Referência :
SAS Institute Inc., SAS OnlineDoc®, Versão 8, Cary, NC: SAS Institute Inc., 1999
fonte