Executei o PCA em 17 variáveis quantitativas para obter um conjunto menor de variáveis, que são os principais componentes, para serem usadas no aprendizado de máquina supervisionado para classificar instâncias em duas classes. Após o PCA, o PC1 responde por 31% da variação nos dados, o PC2 responde por 17%, o PC3 responde por 10%, o PC4 responde por 8%, o PC4 responde por 8%, o PC5 responde por 7% e o PC6, por 6%.
No entanto, quando observo as diferenças médias entre os PCs entre as duas classes, surpreendentemente, o PC1 não é um bom discriminador entre as duas classes. Os PCs restantes são bons discriminadores. Além disso, o PC1 se torna irrelevante quando usado em uma árvore de decisão, o que significa que, após a poda da árvore, ela nem está presente na árvore. A árvore consiste em PC2-PC6.
Existe alguma explicação para esse fenômeno? Pode haver algo errado com as variáveis derivadas?
Respostas:
Isso também pode acontecer se as variáveis não forem dimensionadas para ter variação de unidade antes de executar o PCA. Por exemplo, para esses dados (observe que a escala varia apenas de a enquanto varia de a ):- 0,5 1 x - 3 3y −0.5 1 x −3 3
PC1 é aproximadamente e responde por quase toda a variação, mas não tem poder discriminatório, enquanto PC2 é e discrimina perfeitamente entre as classes.yx y
fonte
prcomp(x, center=T, scale=T)
é o mesmo que fazer (média x) / sd. Neste exemplo, você descobriria que nenhum dos componentes principais é um bom discriminador entre as classes; só funciona se os dois forem usados juntos.Suponho que a resposta e o exemplo fornecido pelo @Flounderer impliquem isso, mas acho que vale a pena explicar isso. A análise de componentes principais (PCA) é indiferente ao rótulo (classificação). Tudo o que faz é transformar alguns dados de alta dimensão em outro espaço dimensional. Isso pode ajudar nas tentativas de classificação, por exemplo, criando um conjunto de dados que é mais fácil separar por um método específico. No entanto, este é apenas um subproduto (ou um efeito colateral) do PCA.
fonte
Quando fazemos a análise de componentes principais, os componentes principais correspondem às direções da máxima variabilidade, eles não garantem a máxima discriminação ou separação entre as classes.
Portanto, o segundo componente fornece uma boa classificação significa que os dados nessa direção oferecem uma melhor discriminação entre as classes. Quando você executa a Análise Discriminante Linear (LDA), fornece os melhores componentes de direção ortogonal que maximizam a distância entre classes e minimizam a distância entre classes.
Portanto, se você fizer o LDA nos dados em vez do PCA, provavelmente um dos primeiros componentes estaria mais próximo do PC6 do que do PC1. Espero que isto ajude.
fonte