Quando você usaria o PCA em vez do LDA na classificação?

10

Estou lendo este artigo sobre a diferença entre Análise de Componentes Principais e Análise Discriminante Múltipla (Análise Discriminante Linear), e estou tentando entender por que você usaria o PCA em vez do MDA / LDA.

A explicação é resumida da seguinte forma:

grosso modo, no PCA, estamos tentando encontrar os eixos com variações máximas em que os dados são mais espalhados (dentro de uma classe, já que o PCA trata todo o conjunto de dados como uma classe) e, no MDA, estamos maximizando adicionalmente o spread entre as classes.

Você não deseja sempre maximizar a variação e maximizar a dispersão entre as classes?

chris
fonte
11
desculpe, eu quis dizer análise discriminante múltipla, que parece também ser chamado várias Linear Análise Discriminante
chris
11
Você deve esclarecer sua pergunta, porque a partir de agora é trivial: você deve preferir o PCA ao MDA quando não houver classes a serem discriminadas em seus dados. Eu acho que você deve especificar isso é sobre classificação na questão.
Firebug
11
LDA é um termo muito mais comum que MDA. Não há necessidade de dizer "linear múltiplo", "linear" é suficiente.
Ameba

Respostas:

11

Está faltando algo mais profundo: o PCA não é um método de classificação.

O PCA no aprendizado de máquina é tratado como um método de engenharia de recursos. Ao aplicar o PCA aos seus dados, você garante que não haverá correlação entre os recursos resultantes. Muitos algoritmos de classificação se beneficiam disso.

Você sempre deve ter em mente que os algoritmos podem ter suposições sobre os dados e, se essas suposições não forem válidas, podem ter um desempenho inferior.

LDA deve calcular uma inversão de matriz covariância para projetar os dados (verificar esses tópicos e respostas: ? Should PCA ser realizada antes de eu fazer a classificação e faz sentido para combinar PCA e LDA? ). Se você tem poucos dados, isso é instável e você obtém projeções super ajustadas para seus pontos de dados, ou seja, uma matriz de covariância dentro da classe. O PCA é geralmente usado para evitar isso, reduzindo a dimensão do problema.

Portanto, a resposta é que você nunca usa o PCA para fazer a classificação, mas pode usá-lo para tentar melhorar o desempenho do LDA.

Firebug
fonte
7

Enquanto as respostas anteriores do Firebug estão corretas, quero adicionar outra perspectiva:

Aprendizagem não supervisionada vs. supervisionada:

O LDA é muito útil para encontrar dimensões que visam separar os clusters; portanto, você precisará conhecer os clusters antes. O LDA não é necessariamente um classificador, mas pode ser usado como um. Assim, o LDA só pode ser usado na aprendizagem supervisionada

O PCA é uma abordagem geral para redução de denoising e dimensionalidade e não requer nenhuma informação adicional, como etiquetas de classe no aprendizado supervisionado. Portanto, ele pode ser usado em aprendizado não supervisionado.

Nikolas Rieble
fonte
2
+1, especialmente para LDA is not neccesarily a classifier. Um leitor (o OP também) também é recomendado para ler esta pergunta relacionada: Como o LDA, uma técnica de classificação, também serve como técnica de redução de dimensionalidade como o PCA .
ttnphns
e as respostas aqui comparam saídas e gráficos de LDA e PCA como escuros. reduções.
ttnphns
(+1) A LDA é realmente uma técnica de redução de dimensão, uma generalização do discriminante linear de Fisher, que as pessoas costumam tratar como critério de classificação.
Firebug
2

O LDA é usado para dividir o espaço multidimensional.

O PCA é usado para recolher o espaço multidimensional.

Por exemplo: objetos 3D projetam sombras 2D. O PCA geralmente nos permite recolher centenas de dimensões espaciais em um punhado de dimensões espaciais inferiores, preservando de 70% a 90% das informações importantes.

Exatamente como posso ver o tamanho e o formato da sua mão a partir da sombra. Não posso contar tudo sobre o formato da sua mão. Mas tendo uma coleção de 3 ou 4 sombras a partir de ângulos ótimos conhecidos. Então, eu poderia lhe contar mais coisas sobre o tamanho e o formato da mão.

Brad
fonte