Qual é uma boa métrica para avaliar a qualidade da análise de componentes principais (PCA)?
Eu executei esse algoritmo em um conjunto de dados. Meu objetivo era reduzir o número de recursos (a informação era muito redundante). Sei que a porcentagem de variação mantida é um bom indicador da quantidade de informações que mantemos; existem outras métricas de informações que posso usar para garantir a remoção de informações redundantes e a "perda" dessas informações?
machine-learning
pca
data-mining
information-theory
grande árvore
fonte
fonte
Respostas:
Suponho que parte dessa pergunta é se existem outras métricas além da variância percentual cumulativa (CPV) e da abordagem similar do scree plot. A resposta para isso é sim, muitos .
Um excelente artigo sobre algumas opções é Valle 1999:
Seleção do número de componentes principais: a variação do critério de erro de reconstrução com uma comparação com outros métodos
Sergio Valle, Weihua Li e S. Joe Qin, Pesquisa em Química Industrial e Engenharia 1999 38 (11), 4389-4401
Ele abrange o CPV, mas também a Análise Paralela, Validação Cruzada, Variação do Erro de Reconstrução (VRE), métodos baseados em critérios de informação e muito mais. Você pode seguir a recomendação feita pelo artigo após comparar e usar o VRE, mas a validação cruzada com base no PRESS também funciona bem na minha experiência e eles também obtêm bons resultados. Na minha experiência, o CPV é conveniente e fácil, e faz um trabalho decente, mas esses dois métodos geralmente são melhores.
Existem outras maneiras de avaliar o quão bom é o seu modelo PCA se você souber mais sobre os dados. Uma maneira é comparar as cargas estimadas de PCA com as verdadeiras se você as conhece (o que você faria em simulações). Isso pode ser feito calculando o viés das cargas estimadas para as verdadeiras. Quanto maior o seu viés, pior o seu modelo. Para saber como fazer isso, você pode conferir este documento onde eles usam essa abordagem para comparar métodos. Porém, não é utilizável em casos reais de dados, onde você não conhece os verdadeiros carregamentos de PCA. Isso fala menos de quantos componentes você removeu do que o viés do seu modelo devido à influência de observações externas, mas ainda serve como uma métrica de qualidade do modelo.
fonte
Existem também medidas baseadas em critérios teóricos da informação, como
MDL da Rissanen (e variações)
fonte