Nos estudos de associação em todo o genoma, quais são os principais componentes?

20

Em estudos de associação ampla do genoma (GWAS):

  1. Quais são os principais componentes?
  2. Por que eles são usados?
  3. Como eles são calculados?
  4. Um estudo de associação em todo o genoma pode ser realizado sem o uso de PCA?
suprvisr
fonte
1
Antes de fazer essas perguntas, você pesquisou neste site "PCA" ou explorou a tag "PCA"? A maioria das suas perguntas já foi respondida lá.
whuber
1
@whuber Acho que o OP está procurando o uso do PCA como uma forma de contabilizar e ajustar a estratificação da população ao modelar um determinado resultado (fenótipo contínuo ou estudos de caso / controle) e marcadores de DNA (SNP). Eu dei uma referência aqui: stats.stackexchange.com/questions/1708/variation-in-pca-weights/… .
chl 25/03
1
Certamente o GWAS pode ser feito sem componentes principais. Na ausência de estratificação populacional, tudo o que você precisa é de milhares de testes ou milhares de testes qui-quadrado. t
onestop 25/03
@onestop (+1) Considerarei que você respondeu à 2ª pergunta, que nem sequer considerei em minha própria resposta.
chl 25/03
@ onestop, e se apenas estratificar por sexo / raça? você pode elaborar sua resposta, por favor?
28411 suprvisr

Respostas:

27

Nesse contexto específico, o PCA é usado principalmente para explicar variações específicas da população na distribuição de alelos nos SNPs (ou outros marcadores de DNA, embora eu esteja familiarizado apenas com o caso SNP) sob investigação. Essa "subestrutura da população" surge principalmente como conseqüência de frequências variáveis ​​de alelos menores em ancestrais geneticamente distantes (por exemplo, japonês e africano negro ou europeu-americano). A ideia geral é bem explicada em Estrutura da População e Análise Eigen , por Patterson et al. ( PLoS Genetics 2006, 2 (12)), ou a edição especial da Lancet sobre epidemiologia genética (2005, 366; a maioria dos artigos pode ser encontrada na web, comece por Cordell & Clayton, Genetic Association Studies ).

A construção dos eixos principais segue a abordagem clássica da PCA, que é aplicada à matriz em escala (indivíduos por SNPs) dos genótipos observados (AA, AB, BB; digamos que B é o alelo menor em todos os casos), com a exceção de que uma normalização adicional para levar em consideração o desvio da população pode ser aplicada. Tudo pressupõe que a frequência do alelo menor (assumindo valor em {0,1,2}) possa ser considerada numérica, ou seja, trabalhamos sob um modelo aditivo (também chamado de dose alélica) ou qualquer outro equivalente que faria sentido . Como os PCs ortogonais sucessivos responderão pela variação máxima, isso fornece uma maneira de destacar grupos de indivíduos que diferem no nível da menor frequência do alelo. O software usado para isso é conhecido como Eigenstrat . Também está disponível noegscore()função do pacote GenABEL R (consulte também GenABEL.org ). Vale ressaltar que outros métodos para detectar a subestrutura da população foram propostos, em particular a reconstrução de agrupamentos baseada em modelos (ver referências no final). Mais informações podem ser encontradas navegando no projeto Hapmap e tutorial disponível vindo do projeto Bioconductor . (Pesquise os bons tutoriais de Vince J Carey ou David Clayton no Google).

±6Estratificação populacional na ajuda on-line.

Considerando que a análise própria permite descobrir alguma estrutura no nível dos indivíduos, podemos usar essas informações ao tentar explicar as variações observadas em um determinado fenótipo (ou qualquer distribuição que possa ser definida de acordo com um critério binário, por exemplo, doença ou caso-controle) situação). Especificamente, podemos ajustar nossa análise com esses PCs (ou seja, as pontuações fatoriais dos indivíduos), conforme ilustrado na análise de componentes principais, corrigida para estratificação em estudos de associação em todo o genoma , por Price et al. ( Nature Genetics 2006, 38 (8)), e trabalhos posteriores (havia uma bela imagem mostrando eixos de variação genética na Europa em Genes espelhavam a geografia na Europa; Nature 2008; Fig 1A reproduzida abaixo). Observe também que outra solução é realizar uma análise estratificada (incluindo a etnia em um GLM) - isso está prontamente disponível no pacote snpMatrix , por exemplo.

genes espelham geografia na europa

Referências

  1. Daniel Falush, Matthew Stephens e Jonathan K Pritchard (2003). Inferência da estrutura populacional usando dados de genótipo multilocus: loci ligados e frequências de alelos correlacionados . Genetics , 164 (4): 1567-1587.
  2. B Devlin e K Roeder (1999). Controle genômico para estudos de associação . Biometrics , 55 (4): 997–1004.
  3. JK Pritchard, M. Stephens e P. Donnelly (2000). Inferência da estrutura da população usando dados do genótipo multilocus . Genetics , 155 (2): 945-959.
  4. Gang Zheng, Boris Freidlin, Zhaohai Li e Joseph L Gastwirth (2005). Controle genômico para estudos de associação sob vários modelos genéticos . Biometrics , 61 (1): 186–92.
  5. Chao Tian, ​​Peter K. Gregersen e Michael F. Seldin1 (2008). Contabilidade da ancestralidade: subestrutura populacional e estudos de associação em todo o genoma . Human Molecular Genetics , 17 (R2): R143-R150.
  6. Kai Yu, subestrutura populacional e seleção de controle em estudos de associação em todo o genoma .
  7. Alkes L. Price, Noah A. Zaitlen, David Reich e Nick Patterson (2010). Novas abordagens à estratificação populacional em estudos de associação em todo o genoma , Nature Reviews Genetics
  8. Chao Tian, ​​et al. (2009). Subestrutura estrutural da população europeia: definição adicional de marcadores informativos de ancestralidade para distinguir entre diversos grupos étnicos europeus , Molecular Medicine, 15 (11-12): 371–383.
chl
fonte
Muito obrigado. Naturalmente, mais perguntas se seguem: 1) O que acontece se eu ignorar o PCA e estratificar minha amostra do GWAS apenas por GENDER / RACE / AGE e ignorar o PCA. Como isso refletirá a análise da minha associação e seu resultado? 2) Se, de fato, quero usar o PCA, quantos SNPS eu tenho que ter genotipado pelo menos para ter um PCA verdadeiro? 200 é suficiente? Eles precisam ser uniformemente dispersos por todos os cromossomos? 3) Quais SNPs são usados ​​no PCA? Esse conjunto predefinido ou algum?
Suprvisr 28/03/11
@suprvisr Posso responder aqui ou atualizar minha resposta, mas acho que é melhor fazer uma nova pergunta (seguindo a ideia de "prós e contras de ajustar o PCA vs. estratificar") e vincular a essa para que as pessoas pode fazer claramente as conexões necessárias.
chl
A @AndyFrost sugeriu que o seguinte possa ter os números mencionados: goo.gl/jNXx0x e a imagem que você pode consultar pode estar em goo.gl/TcK3g8 .
gung - Restabelece Monica
@chl Você poderia, por favor, explicar o que você quer dizer com isto: "O que geralmente é feito neste caso é aplicar a APC de maneira iterativa e remover indivíduos com pontuação abaixo de ± 6 ± 6 DP em pelo menos um dos 20 principais machados". Eu estava procurando uma resposta para o meu post aqui: biostars.org/p/180336
MAPK