Estou usando dados fictícios de temperatura versus vendas de sorvetes e categorizado usando K Keans (n clusters = 2) para distinguir duas categorias (totalmente fictícias).
Agora estou fazendo uma análise de componentes principais nesses dados e meu objetivo é entender o que vejo. Eu sei que o objetivo do PCA é reduzir a dimensionalidade (obviamente não neste caso) e mostrar variação dos elementos. Mas como você lê o gráfico de PCA abaixo, ou seja, qual é a história que você pode contar sobre temperatura versus sorvete no gráfico de PCA? O que significam os 1º (X) e 2º (Y) PCs?
Respostas:
Isso geralmente é o que as pessoas assumem, mas, na verdade, o PCA é apenas uma representação dos seus dados em uma base ortogonal. Essa base ainda tem a mesma dimensionalidade que seus dados originais. Nada está perdido ... ainda. A parte de redução de dimensionalidade é totalmente sua. O que o PCA garante é que as dimensões superiores de sua nova projeção sejam as melhores dimensões em que seus dados possam ser representados. O que significa melhor? É aí que entra a variação explicada.k k
Eu não teria tanta certeza disso! No seu segundo gráfico, visualmente, parece que muitas informações dos seus dados podem ser projetadas em uma linha horizontal. Essa é uma dimensão, em vez da plotagem original, que estava em duas dimensões! Obviamente, você perde algumas informações porque está removendo o eixo Y, mas a decisão é aceitável para você.
Há uma série de perguntas relacionadas ao que o PCA está no site, por isso encorajo você a consultá-las aqui , aqui , aqui ou aqui . Se você tiver outras perguntas depois disso, poste-as e ficarei feliz em ajudar.
Como sua pergunta real:
Como os novos eixos de coordenadas são uma combinação linear das coordenadas originais, então ... basicamente nada! O PCA fornecerá uma resposta como (números compostos):
Isso é útil para você? Talvez. Mas acho que não :)
Editado
Vou adicionar esse recurso que acho útil porque os gráficos interativos são legais.
Editado novamente
fonte
À boa resposta do homem Ilan, eu acrescentaria que há uma interpretação bastante direta de seus componentes principais, embora neste simples caso 2D não adicione muito ao que poderíamos ter interpretado apenas olhando para o gráfico de dispersão.
O primeiro PC é uma soma ponderada (ou seja, uma combinação linear em que ambos os coeficientes são positivos) de temperatura e consumo de sorvete. No lado direito, você tem dias quentes em que muito sorvete é vendido, e no lado esquerdo, dias mais frios, em que menos sorvete é vendido. Esse PC explica a maior parte de sua variação e os grupos que você possui correspondem a esses dois lados.
O segundo PC mede como a temperatura e o consumo de sorvete se afastam da estreita relação linear sublinhada pelo primeiro PC. Na parte superior do gráfico, temos dias com mais sorvete vendido em comparação com outros dias da mesma temperatura e, na parte inferior, dias com menos sorvete vendido do que o esperado de acordo com a temperatura. Esse PC explica apenas uma pequena parte da variação.
Ou seja, podemos contar uma história dos componentes principais, embora com apenas duas variáveis seja a mesma história que poderíamos ter notado sem o PCA. Com mais variáveis, o PCA se torna mais útil porque conta histórias que seriam mais difíceis de perceber de outra maneira.
fonte