Estou lendo este artigo sobre a diferença entre Análise de Componentes Principais e Análise Discriminante Múltipla (Análise Discriminante Linear), e estou tentando entender por que você usaria o PCA em vez do MDA / LDA.
A explicação é resumida da seguinte forma:
grosso modo, no PCA, estamos tentando encontrar os eixos com variações máximas em que os dados são mais espalhados (dentro de uma classe, já que o PCA trata todo o conjunto de dados como uma classe) e, no MDA, estamos maximizando adicionalmente o spread entre as classes.
Você não deseja sempre maximizar a variação e maximizar a dispersão entre as classes?
Respostas:
Está faltando algo mais profundo: o PCA não é um método de classificação.
O PCA no aprendizado de máquina é tratado como um método de engenharia de recursos. Ao aplicar o PCA aos seus dados, você garante que não haverá correlação entre os recursos resultantes. Muitos algoritmos de classificação se beneficiam disso.
Você sempre deve ter em mente que os algoritmos podem ter suposições sobre os dados e, se essas suposições não forem válidas, podem ter um desempenho inferior.
LDA deve calcular uma inversão de matriz covariância para projetar os dados (verificar esses tópicos e respostas: ? Should PCA ser realizada antes de eu fazer a classificação e faz sentido para combinar PCA e LDA? ). Se você tem poucos dados, isso é instável e você obtém projeções super ajustadas para seus pontos de dados, ou seja, uma matriz de covariância dentro da classe. O PCA é geralmente usado para evitar isso, reduzindo a dimensão do problema.
Portanto, a resposta é que você nunca usa o PCA para fazer a classificação, mas pode usá-lo para tentar melhorar o desempenho do LDA.
fonte
Enquanto as respostas anteriores do Firebug estão corretas, quero adicionar outra perspectiva:
Aprendizagem não supervisionada vs. supervisionada:
O LDA é muito útil para encontrar dimensões que visam separar os clusters; portanto, você precisará conhecer os clusters antes. O LDA não é necessariamente um classificador, mas pode ser usado como um. Assim, o LDA só pode ser usado na aprendizagem supervisionada
O PCA é uma abordagem geral para redução de denoising e dimensionalidade e não requer nenhuma informação adicional, como etiquetas de classe no aprendizado supervisionado. Portanto, ele pode ser usado em aprendizado não supervisionado.
fonte
LDA is not neccesarily a classifier
. Um leitor (o OP também) também é recomendado para ler esta pergunta relacionada: Como o LDA, uma técnica de classificação, também serve como técnica de redução de dimensionalidade como o PCA .O LDA é usado para dividir o espaço multidimensional.
O PCA é usado para recolher o espaço multidimensional.
Por exemplo: objetos 3D projetam sombras 2D. O PCA geralmente nos permite recolher centenas de dimensões espaciais em um punhado de dimensões espaciais inferiores, preservando de 70% a 90% das informações importantes.
Exatamente como posso ver o tamanho e o formato da sua mão a partir da sombra. Não posso contar tudo sobre o formato da sua mão. Mas tendo uma coleção de 3 ou 4 sombras a partir de ângulos ótimos conhecidos. Então, eu poderia lhe contar mais coisas sobre o tamanho e o formato da mão.
fonte