O gráfico QQ não corresponde ao histograma

12

Eu tenho um histograma, densidade do kernel e uma distribuição normal ajustada dos retornos do log financeiro, que são transformados em perdas (os sinais são alterados) e um gráfico QQ normal desses dados:

http://tinypic.com/r/34ocwvr/6

O gráfico QQ mostra claramente que as caudas não estão ajustadas corretamente. Mas se eu der uma olhada no histograma e na distribuição normal ajustada (azul), mesmo os valores em torno de 0,0 não serão ajustados corretamente. Portanto, o gráfico QQ mostra que apenas as caudas não são ajustadas adequadamente, mas claramente toda a distribuição não é ajustada corretamente. Por que isso não aparece no gráfico QQ?

Stat Tistician
fonte
10
A curva azul à esquerda corresponde a uma linha hipotética de "melhor ajuste" à direita. A linha da direita não é a que melhor se ajusta: é a que melhor se ajusta aos valores médios da distribuição. Se você ajustasse uma "curva de sino" aos dois terços do meio do histograma, em vez de à coisa toda, essa curva chegaria perto de seguir o pico e os lados inclinados acentuadamente, mas seria longe muito baixo nos ombros e caudas. É exatamente isso que a linha no gráfico qq também está mostrando: esses gráficos estão em perfeito acordo; são os ajustes que diferem.
whuber

Respostas:

11

+1 a @NickSabbe, pois 'o enredo apenas diz que "algo está errado"', que geralmente é a melhor maneira de usar um enredo qq (pois pode ser difícil entender como interpretá-los). É possível aprender a interpretar um gráfico qq, pensando em como fazer um, no entanto.

Você começaria classificando seus dados e depois contaria o seu caminho a partir do valor mínimo, considerando cada um como uma porcentagem igual. Por exemplo, se você tivesse 20 pontos de dados, quando contasse o primeiro (o mínimo), diria a si mesmo: 'Contei 5% dos meus dados'. Você seguiria esse procedimento até chegar ao final, quando passaria por 100% dos seus dados. Esses valores percentuais podem então ser comparados com os mesmos valores percentuais do normal teórico correspondente (ou seja, o normal com a mesma média e DP).

Quando você planeja isso, descobre que tem problemas com o último valor, que é 100%, porque quando você passa por 100% de um normal teórico, está 'no' infinito. Esse problema é resolvido adicionando uma pequena constante ao denominador em cada ponto dos seus dados antes de calcular as porcentagens. Um valor típico seria adicionar 1 ao denominador; por exemplo, você chamaria seu 1º (de 20) ponto de dados 1 / (20 + 1) = 5% e o último seria 20 / (20 + 1) = 95%. Agora, se você plotar esses pontos contra um normal teórico correspondente, terá um gráfico pp(para plotar probabilidades contra probabilidades). Esse gráfico provavelmente mostraria os desvios entre sua distribuição e o normal no centro da distribuição. Isso ocorre porque 68% de uma distribuição normal está dentro de +/- 1 SD, portanto, os gráficos de pontos têm excelente resolução lá e baixa resolução em outros lugares. (Para saber mais sobre esse ponto, pode ser útil ler minha resposta aqui: gráficos de PP versus gráficos de QQ .)

Muitas vezes, estamos mais preocupados com o que está acontecendo nos rabos de nossa distribuição. Para obter uma melhor resolução (e, portanto, uma resolução pior no meio), podemos construir um gráfico qq . Fazemos isso pegando nossos conjuntos de probabilidades e passando-os pelo inverso do CDF da distribuição normal (é como ler a tabela z na parte de trás de um livro de estatísticas - você lê com probabilidade e lê um z- Ponto). O resultado dessa operação são dois conjuntos de quantis , que podem ser plotados um contra o outro da mesma forma.

A @whuber está certa de que a linha de referência é plotada posteriormente (normalmente), encontrando a melhor linha de ajuste no meio de 50% dos pontos (ou seja, do primeiro quartil ao terceiro). Isso é feito para facilitar a leitura da plotagem. Usando esta linha, você pode interpretar o gráfico como mostrando se os quantis de sua distribuição divergem progressivamente de um verdadeiro normal à medida que você se move para as caudas. (Observe que a posição dos pontos mais afastados do centro não é realmente independente dos pontos mais próximos; portanto, o fato de que, em seu histograma específico, as caudas parecem se unir depois de os ombros serem diferentes não significa que os quantis agora são os mesmos novamente.)

Você pode interpretar um gráfico qq analiticamente considerando os valores lidos nos eixos comparados para um determinado ponto plotado. Se os dados foram bem descritos por uma distribuição normal, os valores devem ser os mesmos. Por exemplo, considere o ponto extremo no canto inferior esquerdo:x valor está em algum lugar passado -3, mas é y valor é apenas um pouco passado -.2, portanto, está muito mais longe do que deveria. Em geral, uma simples rubrica para interpretar um gráfico qq é que, se uma determinada cauda se desvia no sentido anti-horário da linha de referência, há mais dados nessa cauda de sua distribuição do que em um normal teórico e se uma cauda se desvia no sentido horário há menos dados nessa cauda de sua distribuição do que em um normal teórico. Em outras palavras:

  • se ambas as caudas se torcerem no sentido anti-horário, você terá caudas pesadas ( leptoquertose ),
  • se as duas caudas girarem no sentido horário, você terá caudas leves (platicurtose),
  • se a cauda direita girar no sentido anti-horário e a cauda esquerda girar no sentido horário, você tem a inclinação direita
  • se a cauda esquerda girar no sentido anti-horário e a cauda direita girar no sentido horário, você tem inclinação esquerda
Repor a Monica
fonte
Acho essas rubricas menos do que satisfatórias. Uma é que eles não têm conexão direta com os princípios por trás do enredo: eles precisam ser memorizados separadamente (e podem ser completamente confundidos por uma memória defeituosa). Outra (nesse caso) é que é muito complicado para ser útil com segurança. Ainda outro é que a falta de padronização na maneira como essas plotagens são desenhadas pode tornar esse método incorreto quando aplicado a uma plotagem qq feita por um procedimento diferente. Mas gráficos qq são fáceis de interpretar: veja minha tentativa de explicação no meio do arquivo quantdec.com/envstats/notes/class_03/probability.htm .
whuber
5

Simplificando: o gráfico QQ mostra o ranking na distribuição empírica em comparação com a distribuição esperada. No seu caso (e esse geralmente é o caso; sempre com distribuições simétricas), as fileiras próximas ao meio serão semelhantes entre o esperado e o empírico; portanto, o gráfico QQ está próximo da linha lá.

Não é tão simples identificar as observações "estranhas" com base em sua posição em um gráfico QQ: o gráfico apenas diz que "algo está errado" e, se você souber mais sobre os dados / distribuições, poderá descobrir onde estão os problemas.

Nick Sabbe
fonte
1
Eu manteria a conclusão oposta, Nick: o gráfico qq facilita muito a identificação e avaliação de resultados "estranhos" em comparação com o corpo de dados, enquanto o histograma tende a obscurecer muito o que o gráfico qq revela. A questão aqui não é se o gráfico qq está perto de uma linha: diz respeito à linha escolhida pelo software como referência para o gráfico! (Eu suspeito que Rbaseia seu ajuste em alguns percentis moderados, como quartis, enquanto evidentemente o ajuste no histograma foi baseado em momentos correspondentes.)
whuber
1
@ whuber: Pessoalmente, eu gosto de ver os dois, se possível (principalmente porque eu "leio" histogramas mais facilmente do que gráficos QQ). Mas você está certo e eu estou corrigido.
Nick Sabbe
E você está certo de que as duas técnicas são complementares. Por exemplo, a bimodalidade tende a ser mais fácil de detectar (e quantificar) em um histograma do que em um gráfico qq. Acredito que, com a prática, histogramas e gráficos qq se tornem fáceis de ler. Os gráficos de QQ podem demorar um pouco mais para serem aprendidos apenas porque eles não têm uma forma padrão de apresentação: você sempre precisa verificar qual eixo é o valor e qual o quantil e, às vezes, os quantis são convertidos em "valores equivalentes" (em vez de padronizado).
whuber