Essa é uma pergunta muito ampla , que acho impossível cobrir de maneira abrangente em uma única resposta. Portanto, acho que seria mais benéfico fornecer algumas dicas para respostas e / ou recursos relevantes. É exatamente o que farei fornecendo as seguintes informações e pensamentos meus.
Antes de mais, devo mencionar o excelente e abrangente tutorial sobre redução de dimensionalidade de Burges (2009) da Microsoft Research. Ele aborda aspectos de alta dimensão dos dados com frequência em toda a monografia. Este trabalho, referindo-se à redução de dimensionalidade como redução de dimensão , apresenta uma introdução teórica ao problema , sugere uma taxonomia de métodos de redução de dimensionalidade, consistindo em métodos projetivos e métodos de modelagem de coletores , além de fornecer uma visão geral de vários métodos em cada categoria.
Os métodos de "busca projetiva " revisados incluem análise de componentes independentes (ACI) , análise de componentes principais (PCA) e suas variações, como PCA do núcleo e PCA probabilístico , análise de correlação canônica (CCA) e sua variação do CCA do núcleo , análise discriminante linear (LDA). ) , redução de dimensão do kernel (KDR) e alguns outros. Os vários métodos revisados incluem escala multidimensional (MDS) e sua variação histórica de MDS , Isomap , Incorporação localmente lineare métodos gráficos, como mapas do tipo Laplacian e agrupamento espectral . Estou listando a maioria dos métodos revisados aqui, caso a publicação original esteja inacessível para você, on-line (link acima) ou off - line (referências).
Há uma ressalva para o termo "abrangente" que apliquei ao trabalho acima mencionado. Embora seja de fato bastante abrangente, isso é relativo, pois algumas das abordagens para a redução da dimensionalidade não são discutidas na monografia, em particular as focadas em variáveis não observáveis (latentes) . Alguns deles são mencionados, no entanto, com referências a outra fonte - um livro sobre redução de dimensionalidade.
Agora, abordarei brevemente vários aspectos mais restritos do tópico em questão, consultando minhas respostas relevantes ou relacionadas. Em relação às abordagens do tipo vizinhos mais próximos (NN) para dados de alta dimensão, consulte minhas respostas aqui (eu recomendo especialmente verificar o artigo # 4 da minha lista). Um dos efeitos da maldição da dimensionalidade é que os dados de alta dimensão são frequentemente escassos . Considerando esse fato, acredito que minhas respostas relevantes aqui e aqui sobre regressão e PCA para dados esparsos e de alta dimensão podem ser úteis.
Referências
Burges, CJC (2010). Redução de dimensão: uma visita guiada. Foundations and Trends® em Machine Learning, 2 (4), 275-365. doi: 10.1561 / 2200000002