Existe alguma quantidade necessária de variação capturada pelo PCA para fazer análises posteriores?

15

Eu tenho um conjunto de dados com 11 variáveis ​​e PCA (ortogonal) foi feito para reduzir os dados. Decidir sobre o número de componentes para mantê-lo ficou evidente para mim pelo meu conhecimento sobre o assunto e o gráfico de seixos (veja abaixo) que dois componentes principais (PCs) eram suficientes para explicar os dados e os componentes restantes eram apenas menos informativos.

insira a descrição da imagem aqui
Scree plot com análise paralela: autovalores observados (verde) e autovalores simulados com base em 100 simulações (vermelho). O gráfico Scree sugere 3 PCs, enquanto o teste paralelo sugere apenas os dois primeiros.

insira a descrição da imagem aqui

Como você pode ver, apenas 48% da variação pode ser capturada pelos dois primeiros PCs.

As observações de plotagem no primeiro plano realizado pelos 2 primeiros PCs revelaram três grupos diferentes usando agrupamento aglomerado hierárquico (HAC) e agrupamento K-means. Esses três grupos mostraram-se muito relevantes para o problema em questão e também foram consistentes com outras descobertas. Portanto, exceto pelo fato de que apenas 48% da variação foi capturada, todo o resto foi tremendamente bom.

Um dos meus dois revisores disse: não se pode confiar muito nessas descobertas, pois apenas 48% da variação pode ser explicada e é menor do que o necessário.

Pergunta
Existe algum valor necessário de quanta variação deve ser capturada pelo PCA para ser válida? Não depende do conhecimento e da metodologia do domínio em uso? Alguém pode julgar o mérito de toda a análise apenas com base no mero valor da variação explicada?

Notas

  • Os dados são 11 variáveis ​​de genes medidos por uma metodologia muito sensível em biologia molecular chamada Reação em Cadeia Polimerase Quantitativa em Tempo Real (RT-qPCR).
  • As análises foram feitas usando R.
  • As respostas dos analistas de dados com base em sua experiência pessoal trabalhando em problemas da vida real nos campos de análise de microarranjos, quimiometria, análises espectrométricas ou similares são muito apreciadas.
  • Por favor, considere apoiar você responder com referências, tanto quanto possível.
doutorado
fonte
A distribuição dos valores próprios é bastante importante para a teoria das matrizes aleatórias. A distribuição Marcenko-Pastur às vezes é usada para aplicações semelhantes.
John John
O que o verde e o que as linhas laranja / marrom mostram? Existe apenas no eixo.
usεr11852 diz Reinstate Monic
@ usεr11852, consulte a legenda atualizada.
doctorado

Respostas:

8

Em relação às suas perguntas específicas:

Existe algum valor necessário de quanta variação deve ser capturada pelo PCA para ser válida?

Não, não existe (no meu melhor conhecimento). Acredito firmemente que não existe um valor único que você possa usar; nenhum limite mágico da porcentagem de variação capturada. O artigo de Cangelosi e Goriely: retenção de componentes na análise de componentes principais com aplicação em dados de microarrays de cDNA fornece uma visão geral bastante agradável de meia dúzia de regras práticas padrão para detectar o número de componentes em um estudo. (Gráfico de scree, Proporção da variância total explicada, Regra do valor próprio médio, diagrama Log-eigenvalue, etc.) Como regra geral, eu não confiaria fortemente em nenhum deles.

Não depende do conhecimento e da metodologia do domínio em uso?

Idealmente, deve ser dependente, mas você precisa ter cuidado com o que você diz e o que quer dizer.

Por exemplo: Em Acústica, existe a noção de Diferença Justificável ( JND ). Suponha que você esteja analisando uma amostra acústica e que um PC em particular tenha variação de escala física bem abaixo do limite de JND. Ninguém pode argumentar prontamente que, para um aplicativo de Acústica, você deveria ter incluído esse PC. Você analisaria ruídos inaudíveis. Pode haver alguns motivos para incluir este PC, mas esses motivos precisam ser apresentados de maneira diferente. São noções semelhantes ao JND para análise de RT-qPCR?

Da mesma forma, se um componente se parece com o polinômio de Legendre de 9ª ordem e você tem fortes evidências de que sua amostra consiste em solavancos gaussianos únicos, você tem boas razões para acreditar que está novamente modelando variações irrelevantes. O que esses modos ortogonais de variação estão mostrando? O que há de "errado" com o terceiro PC no seu caso, por exemplo?

O fato de você dizer " Esses três grupos se mostraram muito relevantes para o problema em questão " não é realmente um argumento forte. Você pode dragar dados simples (o que é uma coisa ruim ). Existem outras técnicas, por exemplo. Isomaps e incorporação localmente linear , que também são muito legais, por que não usá-los? Por que você escolheu o PCA especificamente?

A consistência de suas descobertas com outras descobertas é mais importante, especialmente se elas forem consideradas bem estabelecidas. Vá mais fundo nisso. Tente ver se seus resultados estão de acordo com os resultados da PCA de outros estudos.

Alguém pode julgar o mérito de toda a análise apenas com base no mero valor da variação explicada?

Em geral, não se deve fazer isso. Não pense que seu revisor é um bastardo ou algo assim; 48% é de fato uma pequena porcentagem a ser retida sem apresentar justificativas razoáveis.

usεr11852 diz Reinstate Monic
fonte
Obrigado pela sua resposta. Não há nada de especial no RT-qPCR como no JND. De fato, o RT-qPCR é apenas a técnica pela qual medimos as próprias variáveis ​​genéticas. Provavelmente você quis dizer os PCs, que são as novas variáveis ​​feitas da combinação linear de todos os 11. Com outras variáveis ​​descritivas, os 2 primeiros PCs mostraram-se relacionados a células da resposta imune, enquanto o 3º PC não. Caso contrário, não há nada errado no terceiro PC.
doctorado
Vou dar uma olhada nas técnicas de dragagem de dados e aprender mais sobre elas. Mas você sabe por acaso se isso foi implementado por algum (s) pacote (s) R?
doctorado
1
@ doutor: A idéia toda é evitar a dragagem de dados. Sinto muito, mas não conheço nenhum pacote que o teste explicitamente.
usεr11852 diz Reinstate Monic
1
+1, mas sua frase sobre dragagem de dados ("você pode dragar dados simples") não é muito clara e talvez seja por isso que @doctorate estava confuso. De fato, acho esse parágrafo inteiro pouco claro: o que o Isomap e o LLE têm a ver com a dragagem de dados? a dragagem de dados é boa ou ruim? O artigo wiki ao qual você vinculou começa com a descrição como smth good. Talvez você possa editar para ser um pouco mais explícito nesse parágrafo?
Ameba diz Reinstate Monica