Eu tenho um conjunto de dados com 11 variáveis e PCA (ortogonal) foi feito para reduzir os dados. Decidir sobre o número de componentes para mantê-lo ficou evidente para mim pelo meu conhecimento sobre o assunto e o gráfico de seixos (veja abaixo) que dois componentes principais (PCs) eram suficientes para explicar os dados e os componentes restantes eram apenas menos informativos.
Scree plot com análise paralela: autovalores observados (verde) e autovalores simulados com base em 100 simulações (vermelho). O gráfico Scree sugere 3 PCs, enquanto o teste paralelo sugere apenas os dois primeiros.
Como você pode ver, apenas 48% da variação pode ser capturada pelos dois primeiros PCs.
As observações de plotagem no primeiro plano realizado pelos 2 primeiros PCs revelaram três grupos diferentes usando agrupamento aglomerado hierárquico (HAC) e agrupamento K-means. Esses três grupos mostraram-se muito relevantes para o problema em questão e também foram consistentes com outras descobertas. Portanto, exceto pelo fato de que apenas 48% da variação foi capturada, todo o resto foi tremendamente bom.
Um dos meus dois revisores disse: não se pode confiar muito nessas descobertas, pois apenas 48% da variação pode ser explicada e é menor do que o necessário.
Pergunta
Existe algum valor necessário de quanta variação deve ser capturada pelo PCA para ser válida? Não depende do conhecimento e da metodologia do domínio em uso? Alguém pode julgar o mérito de toda a análise apenas com base no mero valor da variação explicada?
Notas
- Os dados são 11 variáveis de genes medidos por uma metodologia muito sensível em biologia molecular chamada Reação em Cadeia Polimerase Quantitativa em Tempo Real (RT-qPCR).
- As análises foram feitas usando R.
- As respostas dos analistas de dados com base em sua experiência pessoal trabalhando em problemas da vida real nos campos de análise de microarranjos, quimiometria, análises espectrométricas ou similares são muito apreciadas.
- Por favor, considere apoiar você responder com referências, tanto quanto possível.
Respostas:
Em relação às suas perguntas específicas:
Não, não existe (no meu melhor conhecimento). Acredito firmemente que não existe um valor único que você possa usar; nenhum limite mágico da porcentagem de variação capturada. O artigo de Cangelosi e Goriely: retenção de componentes na análise de componentes principais com aplicação em dados de microarrays de cDNA fornece uma visão geral bastante agradável de meia dúzia de regras práticas padrão para detectar o número de componentes em um estudo. (Gráfico de scree, Proporção da variância total explicada, Regra do valor próprio médio, diagrama Log-eigenvalue, etc.) Como regra geral, eu não confiaria fortemente em nenhum deles.
Idealmente, deve ser dependente, mas você precisa ter cuidado com o que você diz e o que quer dizer.
Por exemplo: Em Acústica, existe a noção de Diferença Justificável ( JND ). Suponha que você esteja analisando uma amostra acústica e que um PC em particular tenha variação de escala física bem abaixo do limite de JND. Ninguém pode argumentar prontamente que, para um aplicativo de Acústica, você deveria ter incluído esse PC. Você analisaria ruídos inaudíveis. Pode haver alguns motivos para incluir este PC, mas esses motivos precisam ser apresentados de maneira diferente. São noções semelhantes ao JND para análise de RT-qPCR?
Da mesma forma, se um componente se parece com o polinômio de Legendre de 9ª ordem e você tem fortes evidências de que sua amostra consiste em solavancos gaussianos únicos, você tem boas razões para acreditar que está novamente modelando variações irrelevantes. O que esses modos ortogonais de variação estão mostrando? O que há de "errado" com o terceiro PC no seu caso, por exemplo?
O fato de você dizer " Esses três grupos se mostraram muito relevantes para o problema em questão " não é realmente um argumento forte. Você pode dragar dados simples (o que é uma coisa ruim ). Existem outras técnicas, por exemplo. Isomaps e incorporação localmente linear , que também são muito legais, por que não usá-los? Por que você escolheu o PCA especificamente?
A consistência de suas descobertas com outras descobertas é mais importante, especialmente se elas forem consideradas bem estabelecidas. Vá mais fundo nisso. Tente ver se seus resultados estão de acordo com os resultados da PCA de outros estudos.
Em geral, não se deve fazer isso. Não pense que seu revisor é um bastardo ou algo assim; 48% é de fato uma pequena porcentagem a ser retida sem apresentar justificativas razoáveis.
fonte