Como escolher K para PCA? K é o número de dimensões a serem projetadas. O único requisito é não perder muita informação. Entendo que depende dos dados, mas estou procurando mais uma visão geral simples sobre quais características considerar ao escolher K.
12
Respostas:
Após executar o algoritmo PCA, você obtém os principais componentes, classificados pela quantidade de informações que eles mantêm. Se você mantiver todo o conjunto, não há informações perdidas. Removendo-os um por um e projetando-os de volta no espaço original, é possível calcular a perda de informações. Você pode plotar essa perda de informações em relação ao número de componentes principais removidos e ver se faz um 'cotovelo' onde faz sentido. Muito disso depende do seu caso de uso.
fonte
Normalmente, verifico a porcentagem das informações mantidas pelo valor K. Digamos que de 8 campos, 2 deles possuem 90% da informação. Então não faz sentido incluir os outros 6 ou 5 campos. Se você conhece dados mnist, das 768 entradas, usei apenas 250, o que aumentou minha precisão de 83 para 96%. O fato é que mais dimensionalidade traz mais problemas. Então, corte-os. Normalmente, uso apenas K, que detém apenas 90% da informação, e funciona para mim.
fonte