Estou trabalhando com um pequeno conjunto de dados (21 observações) e tenho o seguinte gráfico QQ normal em R:
Visto que o enredo não suporta a normalidade, o que eu poderia deduzir sobre a distribuição subjacente? Parece-me que uma distribuição mais inclinada para a direita seria mais adequada, certo? Além disso, que outras conclusões podemos tirar dos dados?
r
data-visualization
inference
qq-plot
JohnK
fonte
fonte
Respostas:
Se os valores estiverem ao longo de uma linha, a distribuição terá a mesma forma (até a localização e a escala) da distribuição teórica que supomos.
Comportamento local : ao examinar valores de amostra classificados no eixo y e quantis esperados (aproximados) no eixo x, podemos identificar de que forma os valores em alguma seção do gráfico diferem localmente de uma tendência linear geral, verificando se o valor os valores são mais ou menos concentrados do que a distribuição teórica suporia nessa seção de um gráfico:
Como vemos, os pontos menos concentrados aumentam mais e mais pontos concentrados do que supostamente aumentam menos rapidamente do que uma relação linear geral sugeriria e, nos casos extremos, correspondem a uma lacuna na densidade da amostra (mostra como um salto quase vertical) ou um pico de valores constantes (valores alinhados horizontalmente). Isso nos permite identificar uma cauda pesada ou leve e, portanto, assimetria maior ou menor que a distribuição teórica, e assim por diante.
Aparência geral:
Veja como são os gráficos de QQ (para escolhas específicas de distribuição) em média :
Mas a aleatoriedade tende a obscurecer as coisas, especialmente com pequenas amostras:
Observe que, em os resultados podem ser muito mais variáveis do que os mostrados lá - eu gerei vários conjuntos de seis gráficos e escolhi um conjunto 'agradável' onde você pode ver a forma em todos os seis gráficos ao mesmo tempo. Às vezes, os relacionamentos retos parecem curvos, os relacionamentos curvos parecem retos, as caudas pesadas parecem distorcidas e assim por diante - com amostras tão pequenas, muitas vezes a situação pode ser muito menos clara:n = 21
É possível discernir mais recursos do que aqueles (como discrição, por exemplo), mas com , mesmo esses recursos básicos podem ser difíceis de detectar; não devemos tentar "interpretar demais" cada pequeno movimento. À medida que o tamanho das amostras se torna maior, geralmente os gráficos 'estabilizam' e os recursos se tornam mais claramente interpretáveis, em vez de representar ruído. [Com algumas distribuições de cauda muito pesada, o grande e raro outlier pode impedir que a imagem se estabilize bem, mesmo em tamanhos de amostra bastante grandes.]n = 21
Você também pode achar útil a sugestão aqui ao tentar decidir o quanto você deve se preocupar com uma determinada quantidade de curvatura ou ondulação.
Um guia mais adequado para interpretação em geral também incluiria telas em tamanhos de amostra menores e maiores.
fonte
Eu fiz um aplicativo brilhante para ajudar a interpretar o gráfico QQ normal. Experimente este link.
Neste aplicativo, você pode ajustar a assimetria, a cauda (curtose) e a modalidade de dados e pode ver como o histograma e o gráfico de QQ mudam. Por outro lado, você pode usá-lo de uma maneira que, considerando o padrão da plotagem de QQ, verifique como deve ser a assimetria, etc.
Para mais detalhes, consulte a documentação.
Percebi que não tenho espaço livre suficiente para fornecer este aplicativo online. Como pedido, eu irá fornecer todos os três pedaços de código:
sample.R
,server.R
eui.R
aqui. Quem estiver interessado em executar este aplicativo pode simplesmente carregar esses arquivos no Rstudio e executá-lo no seu próprio PC.O
sample.R
arquivo:O
server.R
arquivo:Por fim, o
ui.R
arquivo:fonte
Uma explicação muito útil (e intuitiva) é dada pelo prof. Philippe Rigollet no curso do MIT MOOC: 18.650 Statistics for Applications, outono de 2016 - veja o vídeo em 45 mins
https://www.youtube.com/watch?v=vMaKx9fmJHE
Copiei grosseiramente o diagrama que guardo em minhas anotações, pois acho muito útil.
No exemplo 1, no diagrama superior esquerdo, vemos que na cauda direita o quantil empírico (ou amostra) é menor que o quantil teórico
Qe <Qt
fonte
Como esse segmento foi considerado um definitivo "como interpretar o gráfico qq normal" no StackExchange, gostaria de apontar os leitores para uma boa e precisa relação matemática entre o gráfico qq normal e a estatística de excesso de curtose.
Aqui está:
https://stats.stackexchange.com/a/354076/102879
Um resumo breve (e muito simplificado) é fornecido da seguinte forma (consulte o link para obter instruções matemáticas mais precisas): Na verdade, você pode ver excesso de curtose no gráfico qq normal como a distância média entre os quantis de dados e os correspondentes quantis normais teóricos, ponderados pela distância dos dados à média. Assim, quando os valores absolutos nas caudas do gráfico qq geralmente se desviam dos valores normais esperados em direções extremas, você tem uma curtose em excesso positiva.
Como a curtose é a média desses desvios ponderados pelas distâncias da média, os valores próximos ao centro do gráfico qq têm pouco impacto na curtose. Portanto, o excesso de curtose não está relacionado ao centro da distribuição, onde está o "pico". Em vez disso, a curtose excessiva é quase inteiramente determinada pela comparação das caudas da distribuição de dados com a distribuição normal.
fonte