Por que se preocupar com aproximações de baixa classificação?

20

Se você tiver uma matriz com n linhas e m colunas, poderá usar o SVD ou outros métodos para calcular uma aproximação de baixa classificação da matriz especificada.

No entanto, a aproximação de classificação baixa ainda terá n linhas e m colunas. Como as aproximações de classificação baixa podem ser úteis para aprendizado de máquina e processamento de linguagem natural, considerando que você tem o mesmo número de recursos?

Zach
fonte
2
Eles geralmente têm representações esparsas - você não precisa armazenar números para um baixo grau de aproximação. Por exemplo, uma aproximação de classificação 1 requer números n + m . mnn+m
probabilityislogic

Respostas:

16

Um baixo escalão aproximação X de X pode ser decomposta em uma raiz quadrada da matriz como L = L r λ 1X^Xonde a decomposição eigen deXéLλLT, reduzindo assim o número de características, que podem ser representados porLcom base na aproximação rank-r comoX=GGT. Observe que o subscritor representa o número de vetores e valores próprios usados ​​na aproximação. Portanto, reduz o número de recursos para representar os dados. Em alguns exemplos, as aproximações de baixa classificação são consideradas expansões baseadas nos dados originais, baseadas em variáveis ​​latentes (dicionário), sob restrições especiais como ortogonalidade, não-negatividade (fatoração de matriz não-negativa) etc.G=vocêrλr12XvocêλvocêTGX^=GGTr

carro fúnebre
fonte
5

O ponto da aproximação de baixa classificação não é necessariamente apenas para realizar a redução de dimensão.

A ideia é que, com base no conhecimento do domínio, os dados / entradas da matriz de alguma forma tornem a matriz baixa. Mas esse é o caso ideal em que as entradas não são afetadas por ruído, corrupção, valores ausentes etc. A matriz observada normalmente terá uma classificação muito mais alta.

A aproximação de classificação baixa é, assim, uma maneira de recuperar a matriz "original" (a matriz "ideal" antes de ser atrapalhada pelo ruído etc.), ou seja, encontre a matriz mais consistente (em termos de entradas observadas) com a matriz atual e é de classificação baixa, para que possa ser usado como uma aproximação à matriz ideal. Depois de recuperar essa matriz, podemos usá-la como um substituto para a versão barulhenta e esperamos obter melhores resultados.

lightalchemist
fonte
4

Mais duas razões não mencionadas até agora:

  1. Reduzindo a colinearidade. Acredito que a maioria dessas técnicas remove a colinearidade, o que pode ser útil para o processamento subsequente.

  2. Nossa imaginação é baixa, portanto pode ser útil para explorar relacionamentos de baixa classificação.

Wayne
fonte
3

Depois de decidir a classificação da aproximação (por exemplo, r<m), você reterá apenas o r vetores de base para uso futuro (digamos, como preditores de um problema de regressão ou classificação) e não o original m.

JohnRos
fonte
1

De acordo com "Técnicas estatísticas multivariadas modernas (Izenman)", a regressão de classificação reduzida abrange vários métodos interessantes como casos especiais, incluindo PCA, análise fatorial, análise de variáveis ​​e correlação canônica, análise de correspondência e análise de correspondência.

user1137731
fonte