Em estudos de associação ampla do genoma (GWAS):
- Quais são os principais componentes?
- Por que eles são usados?
- Como eles são calculados?
- Um estudo de associação em todo o genoma pode ser realizado sem o uso de PCA?
Em estudos de associação ampla do genoma (GWAS):
Respostas:
Nesse contexto específico, o PCA é usado principalmente para explicar variações específicas da população na distribuição de alelos nos SNPs (ou outros marcadores de DNA, embora eu esteja familiarizado apenas com o caso SNP) sob investigação. Essa "subestrutura da população" surge principalmente como conseqüência de frequências variáveis de alelos menores em ancestrais geneticamente distantes (por exemplo, japonês e africano negro ou europeu-americano). A ideia geral é bem explicada em Estrutura da População e Análise Eigen , por Patterson et al. ( PLoS Genetics 2006, 2 (12)), ou a edição especial da Lancet sobre epidemiologia genética (2005, 366; a maioria dos artigos pode ser encontrada na web, comece por Cordell & Clayton, Genetic Association Studies ).
A construção dos eixos principais segue a abordagem clássica da PCA, que é aplicada à matriz em escala (indivíduos por SNPs) dos genótipos observados (AA, AB, BB; digamos que B é o alelo menor em todos os casos), com a exceção de que uma normalização adicional para levar em consideração o desvio da população pode ser aplicada. Tudo pressupõe que a frequência do alelo menor (assumindo valor em {0,1,2}) possa ser considerada numérica, ou seja, trabalhamos sob um modelo aditivo (também chamado de dose alélica) ou qualquer outro equivalente que faria sentido . Como os PCs ortogonais sucessivos responderão pela variação máxima, isso fornece uma maneira de destacar grupos de indivíduos que diferem no nível da menor frequência do alelo. O software usado para isso é conhecido como Eigenstrat . Também está disponível no
egscore()
função do pacote GenABEL R (consulte também GenABEL.org ). Vale ressaltar que outros métodos para detectar a subestrutura da população foram propostos, em particular a reconstrução de agrupamentos baseada em modelos (ver referências no final). Mais informações podem ser encontradas navegando no projeto Hapmap e tutorial disponível vindo do projeto Bioconductor . (Pesquise os bons tutoriais de Vince J Carey ou David Clayton no Google).Considerando que a análise própria permite descobrir alguma estrutura no nível dos indivíduos, podemos usar essas informações ao tentar explicar as variações observadas em um determinado fenótipo (ou qualquer distribuição que possa ser definida de acordo com um critério binário, por exemplo, doença ou caso-controle) situação). Especificamente, podemos ajustar nossa análise com esses PCs (ou seja, as pontuações fatoriais dos indivíduos), conforme ilustrado na análise de componentes principais, corrigida para estratificação em estudos de associação em todo o genoma , por Price et al. ( Nature Genetics 2006, 38 (8)), e trabalhos posteriores (havia uma bela imagem mostrando eixos de variação genética na Europa em Genes espelhavam a geografia na Europa; Nature 2008; Fig 1A reproduzida abaixo). Observe também que outra solução é realizar uma análise estratificada (incluindo a etnia em um GLM) - isso está prontamente disponível no pacote snpMatrix , por exemplo.
Referências
fonte