Gráfico de QQ em Python

11

Eu gerei um gráfico qq usando o código a seguir. Eu sei que qq plot é usado para verificar se os dados são distribuídos normalmente ou não. Minha pergunta é o que os rótulos dos eixos xey indicam no gráfico qq e qual é esse valor de r quadrado indicando ??

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

insira a descrição da imagem aqui

Eu sei que já existe uma discussão sobre qq plot , mas eu não conseguia entender o conceito de apesar de ter passado por essa discussão.

Elizabeth Susan Joseph
fonte
4
R2R2R2
R2R2R2R2
R2R2
Tem certeza de que planeja um gráfico de QQ? help(probplot)estados: probplotgera um gráfico de probabilidade, que não deve ser confundido com um gráfico QQ ou PP.
abukaj

Respostas:

9

A resposta de Macond é precisa, no entanto, a partir do post original, achei que seria útil simplificar um pouco a verborragia.

Um gráfico QQ representa um "gráfico quantil-quantil" .

É um gráfico em que os eixos são propositalmente transformados para fazer uma distribuição normal (ou gaussiana) aparecer em uma linha reta . Em outras palavras, uma distribuição perfeitamente normal seguiria exatamente uma linha com inclinação = 1 e interceptação = 0.

Portanto, se o gráfico não parecer - aproximadamente - uma linha reta, a distribuição subjacente não será normal. Se dobrar, haverá mais valores "altos" do que o esperado, por exemplo. (O link fornece mais exemplos.)


  1. O que os rótulos x e y representam?

Os quantis teóricos são colocados ao longo do eixo x. Ou seja, o eixo x não são seus dados , é simplesmente uma expectativa de onde seus dados deveriam estar, se fossem normais.

Os dados reais são plotados ao longo do eixo y.

Os valores são os desvios padrão da média. Portanto, 0é a média dos dados, 1é 1 desvio padrão acima, etc. Isso significa, por exemplo, que 68.27%todos os seus dados devem estar entre -1 e 1, se você tiver uma distribuição normal.

  1. R2

R2R2R2R2


Por fim, existe um gráfico semelhante que raramente é usado chamado de gráfico pp . Esse gráfico é mais útil se você estiver interessado em focar onde está a maior parte dos dados, em vez dos extremos.

Mike Williamson
fonte
1
A palavra distorcida não é a melhor escolha aqui: eu diria transformada .
Nick Cox
1

O eixo Y mostra os valores da distribuição observada e o eixo X, os valores da distribuição teórica.

Cada ponto é um quantil. Digamos que, se houvesse 100 pontos no gráfico, o primeiro ponto (o lado inferior esquerdo) indica um limite superior por um intervalo e, quando ordenado do menor para o maior, o menor 1% dos pontos de dados do gráfico a distribuição correspondente permanece neste intervalo. Da mesma forma, o segundo ponto é o limite superior de um intervalo, onde estão localizados os 2% menores dos pontos de dados da distribuição. Este é o conceito de quantil. Mas não se limita a um caso com 100 intervalos, é um conceito geral e você pode ter o maior número possível de intervalos, e terá tantos quantis que descrevem os limites dos intervalos.

Usei pontos de dados em toda a minha resposta, como pontos de dados ordenados etc. Isso se refere a distribuições discretas, mas o conceito pode ser generalizado para distribuições contínuas.

R2R2

Macond
fonte
3
R2R2