Quantas dimensões a serem reduzidas ao executar o PCA?

12

Como escolher K para PCA? K é o número de dimensões a serem projetadas. O único requisito é não perder muita informação. Entendo que depende dos dados, mas estou procurando mais uma visão geral simples sobre quais características considerar ao escolher K.

pr338
fonte
Depende da perda de dados tolerável e também da declaração do problema!
Dawny33
Eu concordo com as duas respostas abaixo. No entanto, você sabe que existe uma maneira simples de quantificar a perda de informações, ou seja, usando a diagonal de SVD da matriz de covariância?
Yuqian

Respostas:

13

Após executar o algoritmo PCA, você obtém os principais componentes, classificados pela quantidade de informações que eles mantêm. Se você mantiver todo o conjunto, não há informações perdidas. Removendo-os um por um e projetando-os de volta no espaço original, é possível calcular a perda de informações. Você pode plotar essa perda de informações em relação ao número de componentes principais removidos e ver se faz um 'cotovelo' onde faz sentido. Muito disso depende do seu caso de uso.

Jan van der Vegt
fonte
(+1) Sim, por mais simples que seja :) :)
Dawny33
3

Normalmente, verifico a porcentagem das informações mantidas pelo valor K. Digamos que de 8 campos, 2 deles possuem 90% da informação. Então não faz sentido incluir os outros 6 ou 5 campos. Se você conhece dados mnist, das 768 entradas, usei apenas 250, o que aumentou minha precisão de 83 para 96%. O fato é que mais dimensionalidade traz mais problemas. Então, corte-os. Normalmente, uso apenas K, que detém apenas 90% da informação, e funciona para mim.

Amanuel Negash
fonte
Olá. Tenho um problema semelhante em que gostaria de usar x% de informações e não tenho certeza de como fazer isso? Pretendo usar o IPCA para fazer isso. Posso deixar n_components = None, mas como faço para decidir quais são os recursos que possuem x% dos dados?
Arsenal Fanatic