Dados de alta dimensão: o que são técnicas úteis para conhecer?

14

Devido a várias maldições da dimensionalidade , a precisão e a velocidade de muitas das técnicas preditivas comuns se degradam em dados de alta dimensão. Quais são algumas das técnicas / truques / heurísticas mais úteis que ajudam a lidar com dados de alta dimensão de maneira eficaz? Por exemplo,

  • Certos métodos estatísticos / de modelagem têm bom desempenho em conjuntos de dados de alta dimensão?
  • Podemos melhorar o desempenho de nossos modelos preditivos em dados de alta dimensão usando certos (que definem noções alternativas de distância) ou kernels (que definem noções alternativas de produto escalar)?
  • Quais são as técnicas mais úteis de redução de dimensionalidade para dados de alta dimensão?
ASX
fonte

Respostas:

10

Essa é uma pergunta muito ampla , que acho impossível cobrir de maneira abrangente em uma única resposta. Portanto, acho que seria mais benéfico fornecer algumas dicas para respostas e / ou recursos relevantes. É exatamente o que farei fornecendo as seguintes informações e pensamentos meus.

Antes de mais, devo mencionar o excelente e abrangente tutorial sobre redução de dimensionalidade de Burges (2009) da Microsoft Research. Ele aborda aspectos de alta dimensão dos dados com frequência em toda a monografia. Este trabalho, referindo-se à redução de dimensionalidade como redução de dimensão , apresenta uma introdução teórica ao problema , sugere uma taxonomia de métodos de redução de dimensionalidade, consistindo em métodos projetivos e métodos de modelagem de coletores , além de fornecer uma visão geral de vários métodos em cada categoria.

Os métodos de "busca projetiva " revisados ​​incluem análise de componentes independentes (ACI) , análise de componentes principais (PCA) e suas variações, como PCA do núcleo e PCA probabilístico , análise de correlação canônica (CCA) e sua variação do CCA do núcleo , análise discriminante linear (LDA). ) , redução de dimensão do kernel (KDR) e alguns outros. Os vários métodos revisados ​​incluem escala multidimensional (MDS) e sua variação histórica de MDS , Isomap , Incorporação localmente lineare métodos gráficos, como mapas do tipo Laplacian e agrupamento espectral . Estou listando a maioria dos métodos revisados ​​aqui, caso a publicação original esteja inacessível para você, on-line (link acima) ou off - line (referências).

Há uma ressalva para o termo "abrangente" que apliquei ao trabalho acima mencionado. Embora seja de fato bastante abrangente, isso é relativo, pois algumas das abordagens para a redução da dimensionalidade não são discutidas na monografia, em particular as focadas em variáveis ​​não observáveis ​​(latentes) . Alguns deles são mencionados, no entanto, com referências a outra fonte - um livro sobre redução de dimensionalidade.

Agora, abordarei brevemente vários aspectos mais restritos do tópico em questão, consultando minhas respostas relevantes ou relacionadas. Em relação às abordagens do tipo vizinhos mais próximos (NN) para dados de alta dimensão, consulte minhas respostas aqui (eu recomendo especialmente verificar o artigo # 4 da minha lista). Um dos efeitos da maldição da dimensionalidade é que os dados de alta dimensão são frequentemente escassos . Considerando esse fato, acredito que minhas respostas relevantes aqui e aqui sobre regressão e PCA para dados esparsos e de alta dimensão podem ser úteis.

Referências

Burges, CJC (2010). Redução de dimensão: uma visita guiada. Foundations and Trends® em Machine Learning, 2 (4), 275-365. doi: 10.1561 / 2200000002

Aleksandr Blekh
fonte
0

Aleksander deu uma resposta muito abrangente, mas há alguns que são processados ​​amplamente:

Para reduzir a dimensionalidade, é utilizado o PCA. Isso, no entanto, faz apenas uma transformação linear e, para a redução não-linear da dimensionalidade, o aprendizado do Manifold é o que você está procurando.

Projetar dados de dimensões mais baixas em dimensões mais altas pode ser feito usando kernels. Você costuma fazer isso quando o seu classificador não consegue encontrar um plano linear de separação na dimensão atual, mas consegue encontrar um hiperplano linear que separa as classes em uma dimensão superior. Os kernels são amplamente utilizados nos SVMs.

RAM
fonte