Estou fazendo estudos de associação do GWAS SNP sobre doenças usando um software chamado plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ).
Com os resultados da associação, obtenho valores de p para todos os SNPs analisados. Agora, eu uso um gráfico QQ desses valores p para mostrar se um valor p muito baixo difere da distribuição esperada de valores p (uma distribuição uniforme). Se um valor p se desviar da distribuição esperada, um "poderá" chamar esse valor p para significância estatística.
Como você pode ver no gráfico QQ, no final da cauda, os últimos 4 pontos são um pouco difíceis de interpretar. Dois dos últimos pontos em cinza sugerem que esses valores p estão na distribuição esperada dos valores p, enquanto os outros dois não.
Agora, como interpretar isso, os dois últimos pontos têm valores de p mais baixos, mas não são "significativos" de acordo com o gráfico QQ, enquanto os outros dois pontos com valores de p mais altos são "significativos"? Como pode isto ser verdade?
Respostas:
Uma boa referência na análise de gráficos de valor p é [1].
O resultado que você está vendo pode ser determinado pelo fato de o sinal / efeitos existir apenas em alguns subconjuntos de testes. Eles são direcionados acima das faixas de aceitação. Rejeitar apenas o valor p fora das bandas pode realmente ser justificado, mas talvez mais importante, você deve decidir qual é o critério de erro que deseja controlar ao selecionar seu procedimento de seleção (FWER, FDR). Você pode consultar [2] para essa escolha e referências para escolher o procedimento de teste múltiplo apropriado.
[1] Schweder, T. e E. Spjotvoll. "Gráficos de valores-P para avaliar muitos testes simultaneamente." Biometrika 69, no. 3 (dezembro de 1982): 493–502. doi: 10.2307 / 2335984.
[2] Rosenblatt, Jonathan. “Guia do profissional para várias taxas de erro de teste.” ArXiv e-print. Universidade de Tel Aviv, 17 de abril de 2013. http://arxiv.org/abs/1304.4920 .
fonte
Essa é uma pergunta mais antiga, mas achei útil ao tentar interpretar QQPlots pela primeira vez. Pensei em acrescentar essas respostas caso mais pessoas se deparem com isso no futuro.
O que achei um pouco complicado de entender é exatamente o que são esses pontos? Eu descobri que ir ao código tornava fácil descobrir.
Aqui está um código R que eu adaptei
GWASTools::qqPlot
que implementa um QQPlot em 3 linhas:Aqui está um exemplo. Você tem 5 valores-p. O simpleQQPlot gerará 5 valores correspondentes a partir de uma distribuição uniforme entre 0 e 1. Estes serão: .2 .4 .6 .8 e 1. Portanto, o simpleQQPlot espera que o seu menor valor p seja em torno de 0,2 e o seu maior em torno. 1. O simpleQQPlot classificará seus valores e emparelhará cada um com o valor gerado correspondente. Assim, .2 será emparelhado com o valor mais baixo, 1 com o valor mais alto e assim por diante. Em seguida, esses valores emparelhados são plotados (após obter os logs negativos), com X sendo o pvalor gerado e Y sendo o valor observado emparelhado. Se seus valores observados também foram extraídos de uma distribuição normal, os pontos devem ficar aproximadamente na linha reta. Por causa da classificação, os pontos sempre aumentam monotonicamente. Portanto, cada ponto subsequente terá um X maior e um Y maior ou igual a.
Portanto, no exemplo original acima, o 9.997º valor p classificado era de cerca de 5,2, mas era esperado que fosse de cerca de 4,1 se seguisse uma distribuição normal. (Nota: não tenho certeza de quantos valores de p foram plotados acima - adivinhei 10k).
fonte