Eu gerei um gráfico qq usando o código a seguir. Eu sei que qq plot é usado para verificar se os dados são distribuídos normalmente ou não. Minha pergunta é o que os rótulos dos eixos xey indicam no gráfico qq e qual é esse valor de r quadrado indicando ??
N = 1200
p = 0.53
q = 1000
obs = np.random.binomial(N, p, size = q)/N
import scipy.stats as stats
z = (obs-np.mean(obs))/np.std(obs)
stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()
Eu sei que já existe uma discussão sobre qq plot , mas eu não conseguia entender o conceito de apesar de ter passado por essa discussão.
probability
normal-distribution
mathematical-statistics
descriptive-statistics
qq-plot
Elizabeth Susan Joseph
fonte
fonte
help(probplot)
estados:probplot
gera um gráfico de probabilidade, que não deve ser confundido com um gráfico QQ ou PP.Respostas:
A resposta de Macond é precisa, no entanto, a partir do post original, achei que seria útil simplificar um pouco a verborragia.
Um gráfico QQ representa um "gráfico quantil-quantil" .
É um gráfico em que os eixos são propositalmente transformados para fazer uma distribuição normal (ou gaussiana) aparecer em uma linha reta . Em outras palavras, uma distribuição perfeitamente normal seguiria exatamente uma linha com inclinação = 1 e interceptação = 0.
Portanto, se o gráfico não parecer - aproximadamente - uma linha reta, a distribuição subjacente não será normal. Se dobrar, haverá mais valores "altos" do que o esperado, por exemplo. (O link fornece mais exemplos.)
Os quantis teóricos são colocados ao longo do eixo x. Ou seja, o eixo x não são seus dados , é simplesmente uma expectativa de onde seus dados deveriam estar, se fossem normais.
Os dados reais são plotados ao longo do eixo y.
Os valores são os desvios padrão da média. Portanto,
0
é a média dos dados,1
é 1 desvio padrão acima, etc. Isso significa, por exemplo, que68.27%
todos os seus dados devem estar entre -1 e 1, se você tiver uma distribuição normal.Por fim, existe um gráfico semelhante que raramente é usado chamado de gráfico pp . Esse gráfico é mais útil se você estiver interessado em focar onde está a maior parte dos dados, em vez dos extremos.
fonte
O eixo Y mostra os valores da distribuição observada e o eixo X, os valores da distribuição teórica.
Cada ponto é um quantil. Digamos que, se houvesse 100 pontos no gráfico, o primeiro ponto (o lado inferior esquerdo) indica um limite superior por um intervalo e, quando ordenado do menor para o maior, o menor 1% dos pontos de dados do gráfico a distribuição correspondente permanece neste intervalo. Da mesma forma, o segundo ponto é o limite superior de um intervalo, onde estão localizados os 2% menores dos pontos de dados da distribuição. Este é o conceito de quantil. Mas não se limita a um caso com 100 intervalos, é um conceito geral e você pode ter o maior número possível de intervalos, e terá tantos quantis que descrevem os limites dos intervalos.
Usei pontos de dados em toda a minha resposta, como pontos de dados ordenados etc. Isso se refere a distribuições discretas, mas o conceito pode ser generalizado para distribuições contínuas.
fonte