Entendo que o PCA é usado para redução de dimensionalidade para poder plotar conjuntos de dados em 2D ou 3D. Mas também vi pessoas aplicando o PCA como uma etapa de pré-processamento nos cenários de classificação em que eles aplicam o PCA para reduzir o número de recursos, depois usam alguns Componentes Principais (os autovetores da matriz de covariância) como novos recursos.
Minhas perguntas:
Que efeitos isso causa no desempenho da classificação?
Quando aplicar uma etapa de pré-processamento?
Eu tenho um conjunto de dados com 10 recursos como números reais e 600 recursos binários que representam recursos categóricos, usando a codificação um-para-muitos para representá-los. A aplicação do PCA aqui faria sentido e obteria melhores resultados?
ps se a pergunta for muito ampla, ficaria muito grato se você fornecer um documento ou tutoriais que explique melhor os detalhes do uso do PCA dessa maneira.
ps Depois de ler um pouco, descobri que seria melhor usar a Análise Semântica Latente para reduzir o número de recursos binários para os atributos categóricos? Portanto, não toco nos recursos com valor real, mas apenas pré-processo os recursos binários e depois os combinei com os novos recursos e treine meu classificador. O que você acha?
fonte