Este é realmente um tópico importante nos estudos de análise Genomewide (GWAS)! Não sei se o método que você está pensando é o mais apropriado nesse contexto. O agrupamento dos valores de p foi descrito por alguns autores, mas em um contexto diferente (estudos de replicação ou metanálise, ver, por exemplo, (1) uma revisão recente). A combinação de valores p de SNP pelo método de Fisher é geralmente usada quando se deseja derivar um valor p único para um determinado gene; isso permite trabalhar no nível do gene e reduzir a quantidade de dimensionalidade dos testes subsequentes, mas, como você disse, a não independência entre os marcadores (decorrente da colocação espacial ou desiquilíbrio de ligação, LD) apresenta um viés. Alternativas mais poderosas dependem de procedimentos de reamostragem,
Minhas principais preocupações com o bootstraping (com substituição) são que você está introduzindo uma forma artificial de parentesco ou, em outras palavras, cria gêmeos virtuais, alterando o equilíbrio de Hardy-Weinberg (mas também a frequência alélica mínima e a taxa de chamadas). Este não seria o caso de uma abordagem de permutação em que você permite rótulos individuais e mantém os dados de genotipagem como estão. Normalmente, o software plink pode fornecer valores p brutos e permutados, embora use (por padrão) uma estratégia de teste adaptável com uma janela deslizante que permite interromper a execução de todas as permutações (por exemplo, 1000 por SNP) se parecer que o SNP está sob consideração não é "interessante"; ele também tem opção para calcular o maxT, consulte a ajuda online .
Mas, dado o baixo número de SNPs que você está considerando, eu sugeriria confiar nos testes baseados em FDR ou maxT, conforme implementados no pacote R multtest (veja mt.maxT
), mas o guia definitivo para reamostrar estratégias de aplicação genômica é Multiple Procedures Testing with Applications to Genomics , de Dudoit & van der Laan (Springer, 2008). Veja também o livro de Andrea Foulkes sobre genética com R , que é revisado no JSS. Ela tem ótimo material em vários procedimentos de teste.
Notas adicionais
Muitos autores apontaram o fato de que métodos simples de correção de múltiplos testes, como o Bonferroni ou o Sidak, são muito rigorosos para ajustar os resultados para os SNPs individuais. Além disso, nenhum desses métodos leva em consideração a correlação existente entre os SNPs devido ao LD, que marca a variação genética nas regiões gênicas. Outras alternativas foram propostas, como um derivado do método de Holm para comparação múltipla (3), modelo oculto de Markov (4), FDR condicional ou positivo (5) ou seu derivado (6), para citar alguns. As chamadas estatísticas de gap ou janela deslizante provaram ser bem-sucedidas em alguns casos, mas você encontrará uma boa revisão em (7) e (8).
Também ouvi falar de métodos que fazem uso efetivo da estrutura do haplótipo ou LD, por exemplo (9), mas nunca os usei. Eles parecem, no entanto, mais relacionados à estimativa da correlação entre marcadores, e não ao valor de p, como você quis dizer. Mas, na verdade, é melhor pensar em termos da estrutura de dependência entre estatísticas sucessivas de teste, do que entre valores de p correlacionados.
Referências
- Cantor, RM, Lange, K. e Sinsheimer, JS. Priorizando os resultados do GWAS: uma revisão dos métodos estatísticos e recomendações para sua aplicação . Sou J Hum Genet. 2010 86 (1): 6–22.
- Corley, RP, Zeiger, JS, Crowley, T et al. Associação de genes candidatos à dependência de drogas antissociais em adolescentes . Dependência de Drogas e Álcool 2008 96: 90–98.
- Dalmasso, C, Génin, E e Trégouet DA. Um Procedimento de Holm Ponderado Contabilizando Frequências Alélicas em Estudos de Associação Genomewide . Genetics 2008 180 (1): 697–702.
- Wei, Z, Sun, W, Wang, K e Hakonarson, H. Testes Múltiplos em Estudos de Associação em Todo o Genoma através de Modelos Markov Ocultos . Bioinformatics 2009 25 (21): 2802-2808.
- Broberg, P. Uma revisão comparativa das estimativas da proporção de genes inalterados e a taxa de falsas descobertas . BMC Bioinformatics 2005 6: 199.
- Necessidade, CA, Ge, D, Arma, ME, et a. Uma investigação em todo o genoma de SNPs e CNVs na esquizofrenia . PLoS Genet. 2009 5 (2): e1000373.
- Han, B, Kang, HM e Eskin, E. Correção rápida e precisa de testes múltiplos e estimativa de energia para milhões de marcadores correlacionados . PLoS Genetics 2009
- Liang, Y e Kelemen, A. Avanços e desafios estatísticos para analisar dados snp de alta dimensão correlacionados em estudo genômico para doenças complexas . Pesquisas Estatísticas 2008 2: 43–60. - a melhor revisão recente de sempre
- Nyholt, DR. Uma correção simples para testes múltiplos de polimorfismos de um único nucleotídeo no desequilíbrio de ligação entre si . Sou J Hum Genet. 2004 74 (4): 765-769.
- Nicodemos, KK, Liu, W, Chase, GA, Tsai, AA e Fallin, MD. Comparação do erro do tipo I para correções de teste múltiplas em grandes estudos de polimorfismo de nucleotídeo único usando componentes principais versus algoritmos de bloqueio de haplótipos . BMC Genetics 2005; 6 (suplemento 1): S78.
- Peng, Q, Zhao, J e Xue, F. Testes de intervalo de confiança de autoinicialização baseados em PCA para associação gene-doença envolvendo múltiplos SNPs . BMC Genetics 2010, 11: 6
- Li, M, Romero, R., Fu, WJ e Cui, Y (2010). Mapeando interações haplótipo-haplótipo com LASSO adaptável . BMC Genetics 2010, 11:79 - embora não esteja diretamente relacionado à questão, abrange análise baseada em haplótipos / efeito epistático
snpMatrix
ou simplesmenteglm()
funciona muito bem nesse ponto, mas você não pode incorporar muitos SNPs dentro deglm()
...); o problema é que obter o valor p corrigido no final de sua 2ª análise é bastante complicado (porque você precisa contabilizar os parâmetros já estimados).Usar um método como o bonferroni é bom, o problema é que, se você tiver muitos testes, provavelmente não encontrará muitas "descobertas".
Você pode usar a abordagem FDR para testes dependentes (consulte aqui para obter detalhes ). O problema é que não tenho certeza se você pode dizer com antecedência se suas correlações são todas positivas.
Em R, você pode executar um FDR simples com p.adjust. Para coisas mais complexas, eu daria uma olhada multcomp , mas não procurei por soluções em casos de dependências.
Boa sorte.
fonte
Acho que os modelos normais multivariados estão sendo usados para modelar os valores p correlacionados e obter o tipo certo de várias correções de teste. Correção rápida e precisa de testes múltiplos e estimativa de energia para milhões de marcadores correlacionados. O PLoS Genet 2009 fala sobre eles e também fornece outras referências. Parece semelhante ao que você estava falando, mas acho que, além de obter uma correção global mais precisa do valor de p, o conhecimento da estrutura do LD também deve ser usado para remover positivos falsos decorrentes de marcadores correlacionados com marcadores causais.
fonte
Estou procurando uma solução funcional para exatamente o mesmo problema. O melhor que encontrei é o Bootstrap nulo e irrestrito, introduzido por Foulkes Andrea em seu livro Applied Statistical Genetics with R (2009) . Ao contrário de todos os outros artigos e livros, ele considera especificamente as regressões. Além de outros métodos, ele aconselha o Null Unrestricted Bootstrap, que é adequado onde não é possível calcular facilmente resíduos (como no meu caso, onde modelo muitas regressões independentes (basicamente correlações simples), cada uma com a mesma variável de resposta e snip diferente). Eu achei esse método também chamado de método maxT .
TestStatBoot
A última etapa pode ser realizada com este código
fonte