Eu tenho um histograma, densidade do kernel e uma distribuição normal ajustada dos retornos do log financeiro, que são transformados em perdas (os sinais são alterados) e um gráfico QQ normal desses dados:
O gráfico QQ mostra claramente que as caudas não estão ajustadas corretamente. Mas se eu der uma olhada no histograma e na distribuição normal ajustada (azul), mesmo os valores em torno de 0,0 não serão ajustados corretamente. Portanto, o gráfico QQ mostra que apenas as caudas não são ajustadas adequadamente, mas claramente toda a distribuição não é ajustada corretamente. Por que isso não aparece no gráfico QQ?
data-visualization
normality-assumption
histogram
qq-plot
Stat Tistician
fonte
fonte
Respostas:
+1 a @NickSabbe, pois 'o enredo apenas diz que "algo está errado"', que geralmente é a melhor maneira de usar um enredo qq (pois pode ser difícil entender como interpretá-los). É possível aprender a interpretar um gráfico qq, pensando em como fazer um, no entanto.
Você começaria classificando seus dados e depois contaria o seu caminho a partir do valor mínimo, considerando cada um como uma porcentagem igual. Por exemplo, se você tivesse 20 pontos de dados, quando contasse o primeiro (o mínimo), diria a si mesmo: 'Contei 5% dos meus dados'. Você seguiria esse procedimento até chegar ao final, quando passaria por 100% dos seus dados. Esses valores percentuais podem então ser comparados com os mesmos valores percentuais do normal teórico correspondente (ou seja, o normal com a mesma média e DP).
Quando você planeja isso, descobre que tem problemas com o último valor, que é 100%, porque quando você passa por 100% de um normal teórico, está 'no' infinito. Esse problema é resolvido adicionando uma pequena constante ao denominador em cada ponto dos seus dados antes de calcular as porcentagens. Um valor típico seria adicionar 1 ao denominador; por exemplo, você chamaria seu 1º (de 20) ponto de dados 1 / (20 + 1) = 5% e o último seria 20 / (20 + 1) = 95%. Agora, se você plotar esses pontos contra um normal teórico correspondente, terá um gráfico pp(para plotar probabilidades contra probabilidades). Esse gráfico provavelmente mostraria os desvios entre sua distribuição e o normal no centro da distribuição. Isso ocorre porque 68% de uma distribuição normal está dentro de +/- 1 SD, portanto, os gráficos de pontos têm excelente resolução lá e baixa resolução em outros lugares. (Para saber mais sobre esse ponto, pode ser útil ler minha resposta aqui: gráficos de PP versus gráficos de QQ .)
Muitas vezes, estamos mais preocupados com o que está acontecendo nos rabos de nossa distribuição. Para obter uma melhor resolução lá (e, portanto, uma resolução pior no meio), podemos construir um gráfico qq . Fazemos isso pegando nossos conjuntos de probabilidades e passando-os pelo inverso do CDF da distribuição normal (é como ler a tabela z na parte de trás de um livro de estatísticas - você lê com probabilidade e lê um z- Ponto). O resultado dessa operação são dois conjuntos de quantis , que podem ser plotados um contra o outro da mesma forma.
A @whuber está certa de que a linha de referência é plotada posteriormente (normalmente), encontrando a melhor linha de ajuste no meio de 50% dos pontos (ou seja, do primeiro quartil ao terceiro). Isso é feito para facilitar a leitura da plotagem. Usando esta linha, você pode interpretar o gráfico como mostrando se os quantis de sua distribuição divergem progressivamente de um verdadeiro normal à medida que você se move para as caudas. (Observe que a posição dos pontos mais afastados do centro não é realmente independente dos pontos mais próximos; portanto, o fato de que, em seu histograma específico, as caudas parecem se unir depois de os ombros serem diferentes não significa que os quantis agora são os mesmos novamente.)
Você pode interpretar um gráfico qq analiticamente considerando os valores lidos nos eixos comparados para um determinado ponto plotado. Se os dados foram bem descritos por uma distribuição normal, os valores devem ser os mesmos. Por exemplo, considere o ponto extremo no canto inferior esquerdo:x valor está em algum lugar passado - 3 , mas é y valor é apenas um pouco passado - .2 , portanto, está muito mais longe do que deveria. Em geral, uma simples rubrica para interpretar um gráfico qq é que, se uma determinada cauda se desvia no sentido anti-horário da linha de referência, há mais dados nessa cauda de sua distribuição do que em um normal teórico e se uma cauda se desvia no sentido horário há menos dados nessa cauda de sua distribuição do que em um normal teórico. Em outras palavras:
fonte
Simplificando: o gráfico QQ mostra o ranking na distribuição empírica em comparação com a distribuição esperada. No seu caso (e esse geralmente é o caso; sempre com distribuições simétricas), as fileiras próximas ao meio serão semelhantes entre o esperado e o empírico; portanto, o gráfico QQ está próximo da linha lá.
Não é tão simples identificar as observações "estranhas" com base em sua posição em um gráfico QQ: o gráfico apenas diz que "algo está errado" e, se você souber mais sobre os dados / distribuições, poderá descobrir onde estão os problemas.
fonte
R
baseia seu ajuste em alguns percentis moderados, como quartis, enquanto evidentemente o ajuste no histograma foi baseado em momentos correspondentes.)