Se você tiver uma matriz com n linhas e m colunas, poderá usar o SVD ou outros métodos para calcular uma aproximação de baixa classificação da matriz especificada.
No entanto, a aproximação de classificação baixa ainda terá n linhas e m colunas. Como as aproximações de classificação baixa podem ser úteis para aprendizado de máquina e processamento de linguagem natural, considerando que você tem o mesmo número de recursos?
r
matrix
approximation
Zach
fonte
fonte
Respostas:
Um baixo escalão aproximação X de X pode ser decomposta em uma raiz quadrada da matriz como L = L r λ 1X^ X onde a decomposição eigen deXéLλLT, reduzindo assim o número de características, que podem ser representados porLcom base na aproximação rank-r comoX=GGT. Observe que o subscritor representa o número de vetores e valores próprios usados na aproximação. Portanto, reduz o número de recursos para representar os dados. Em alguns exemplos, as aproximações de baixa classificação são consideradas expansões baseadas nos dados originais, baseadas em variáveis latentes (dicionário), sob restrições especiais como ortogonalidade, não-negatividade (fatoração de matriz não-negativa) etc.G = Urλ12r X vocêλ UT G X^= G GT r
fonte
O ponto da aproximação de baixa classificação não é necessariamente apenas para realizar a redução de dimensão.
A ideia é que, com base no conhecimento do domínio, os dados / entradas da matriz de alguma forma tornem a matriz baixa. Mas esse é o caso ideal em que as entradas não são afetadas por ruído, corrupção, valores ausentes etc. A matriz observada normalmente terá uma classificação muito mais alta.
A aproximação de classificação baixa é, assim, uma maneira de recuperar a matriz "original" (a matriz "ideal" antes de ser atrapalhada pelo ruído etc.), ou seja, encontre a matriz mais consistente (em termos de entradas observadas) com a matriz atual e é de classificação baixa, para que possa ser usado como uma aproximação à matriz ideal. Depois de recuperar essa matriz, podemos usá-la como um substituto para a versão barulhenta e esperamos obter melhores resultados.
fonte
Mais duas razões não mencionadas até agora:
Reduzindo a colinearidade. Acredito que a maioria dessas técnicas remove a colinearidade, o que pode ser útil para o processamento subsequente.
Nossa imaginação é baixa, portanto pode ser útil para explorar relacionamentos de baixa classificação.
fonte
Depois de decidir a classificação da aproximação (por exemplo,r < m ), você reterá apenas o r vetores de base para uso futuro (digamos, como preditores de um problema de regressão ou classificação) e não o original m .
fonte
De acordo com "Técnicas estatísticas multivariadas modernas (Izenman)", a regressão de classificação reduzida abrange vários métodos interessantes como casos especiais, incluindo PCA, análise fatorial, análise de variáveis e correlação canônica, análise de correspondência e análise de correspondência.
fonte