Redução de dimensionalidade supervisionada

13

Eu tenho um conjunto de dados que consiste em 15 mil amostras marcadas (de 10 grupos). Quero aplicar a redução de dimensionalidade em duas dimensões, que levariam em consideração o conhecimento dos rótulos.

Quando uso técnicas de redução de dimensionalidade não supervisionadas "padrão", como o PCA, o gráfico de dispersão parece não ter nada a ver com os rótulos conhecidos.

O que estou procurando tem um nome? Eu gostaria de ler algumas referências de soluções.

Roy
fonte
3
Se você estiver procurando por métodos lineares, a análise discriminante linear (LDA) é o que você deve usar.
Ameba diz Reinstate Monica
@amoeba: Obrigado. Eu usei e teve um desempenho muito melhor!
Roy
Fico feliz que ajudou. Forneci uma resposta breve com algumas referências adicionais.
Ameba diz Reinstate Monica
1
Uma possibilidade seria primeiro reduzir para o espaço tridimensional que abrange os centróides da classe e, em seguida, usar o PCA para reduzir ainda mais a duas dimensões.
A.Delda
Relacionado: stats.stackexchange.com/questions/16305 (possivelmente duplicado, embora talvez o contrário. Voltarei a isso depois de atualizar minha resposta abaixo.)
ameba diz Reinstate Monica

Respostas:

27

O método linear mais padrão de redução supervisionada de dimensionalidade é chamado de análise discriminante linear (LDA). Ele foi projetado para encontrar projeções de baixa dimensão que maximizem a separação de classes. Você pode encontrar muitas informações sobre isso em nossa tag de e em qualquer livro de aprendizado de máquina, como por exemplo, The Elements of Statistical Learning, disponível gratuitamente .

Aqui está uma foto que eu encontrei aqui com uma rápida pesquisa no Google; mostra projeções unidimensionais de PCA e LDA quando há duas classes no conjunto de dados (origem adicionada por mim):

PCA vs LDA

Outra abordagem é chamada de mínimos quadrados parciais (PLS). O LDA pode ser interpretado como procurando projeções com maior correlação com as variáveis ​​fictícias que codificam os rótulos dos grupos (nesse sentido, o LDA pode ser visto como um caso especial de análise de correlação canônica, CCA). Por outro lado, o PLS procura projeções com maior covariância com rótulos de grupo. Enquanto o LDA produz apenas 1 eixo para o caso de dois grupos (como na figura acima), o PLS encontrará muitos eixos ordenados pela covariância decrescente. Observe que quando há mais de dois grupos presentes no conjunto de dados, existem "sabores" diferentes do PLS que produzirão resultados um pouco diferentes.

Atualização (2018)

Eu deveria encontrar tempo para expandir esta resposta; esse tópico parece ser popular, mas minha resposta original acima é muito curta e não é detalhada o suficiente.

k

ameba diz Restabelecer Monica
fonte
1
gráfico agradável, explica muito
Titou