Qual é o ponto de decomposição de valor singular?

9

Não entendo por que a redução na dimensão é importante. Qual é o benefício de obter alguns dados e reduzir sua dimensão?

whuber
fonte
3
O tom da pergunta não convida respostas construtivas. Por favor, considere reformular sua pergunta.
Sasha
2
O ponto pode ser reduzir o volume de dados necessários para armazenar determinadas informações como uma despesa de leve perda de precisão (por exemplo, compactação de imagem JPEG).
Sasha
2
Obrigado por seus comentários, @Sasha. É uma pergunta razoável, então fiz uma pequena edição para evitar a impressão de franqueza (certamente não intencional) transmitida pelo texto original.
whuber
Veja stats.stackexchange.com/questions/177102/… para um exemplo!
precisa saber é o seguinte
Você faz SVD para modelagem de tópicos que NÃO é probabilística. Para modelagem de tópicos probabilística, use LDA. Se você NÃO está fazendo modelagem de tópicos, use o PCA.
187 Brad

Respostas:

18

A decomposição de valor singular (SVD) não é o mesmo que reduzir a dimensionalidade dos dados. É um método de decompor uma matriz em outras matrizes que possui muitas propriedades maravilhosas nas quais não vou entrar aqui. Para mais informações sobre SVD, consulte a página da Wikipedia .

Reduzir a dimensionalidade dos seus dados às vezes é muito útil. Pode ser que você tenha muito mais variáveis ​​que observações; isso não é incomum no trabalho genômico. Pode ser que tenhamos várias variáveis ​​altamente correlacionadas, por exemplo, quando elas são fortemente influenciadas por um pequeno número de fatores subjacentes e desejamos recuperar alguma aproximação aos fatores subjacentes. Técnicas de redução de dimensionalidade, como análise de componentes principais, dimensionamento multidimensional e análise de variáveis ​​canônicas, nos dão uma ideia das relações entre observações e / ou variáveis ​​que talvez não consigamos de outra maneira.

Um exemplo concreto: há alguns anos, eu estava analisando uma pesquisa de satisfação de funcionários com mais de 100 perguntas. Bem, nenhum gerente será capaz de analisar mais de 100 perguntas no valor de respostas, mesmo resumidas, e fazer mais do que adivinhar o que tudo isso significa, porque quem pode dizer como as respostas estão relacionadas e o que as está dirigindo, realmente ? Realizei uma análise fatorial dos dados, para as quais tive mais de 10.000 observações, e vi cinco fatores muito claros e prontamente interpretáveis ​​que poderiam ser usados ​​para desenvolver pontuações específicas do gerente (uma para cada fator) que resumissem a totalidade das a pesquisa com mais de 100 perguntas. Uma solução muito melhor do que o despejo de planilha do Excel que tinha sido o método anterior de relatar resultados!

jbowman
fonte
Um método chamado "SVD fino" é usado para redução de dimensionalidade. Veja a Wikipedia em SVD.
cyborg
5

Em relação ao segundo ponto da pergunta, os benefícios da redução de dimensionalidade para um conjunto de dados podem ser:

  • reduzir o espaço de armazenamento necessário
  • acelerar a computação (por exemplo, em algoritmos de aprendizado de máquina), menos dimensões significam a computação e também menos dimensões podem permitir o uso de algoritmos impróprios para um grande número de dimensões
  • remova recursos redundantes, por exemplo, não há sentido em armazenar o tamanho de um terreno em metros quadrados e milhas quadradas (talvez a coleta de dados tenha sido falha)
  • reduzir a dimensão de um dado para 2D ou 3D pode nos permitir plotar e visualizar, talvez observar padrões, nos dar idéias

Fora isso, além do PCA, os SVDs têm muitas aplicações em Processamento de Sinais, PNL e muito mais

clyfe
fonte
2

Dê uma olhada nesta resposta minha. A decomposição de valor singular é um componente-chave da análise de componentes principais , que é uma técnica de análise de dados muito útil e muito poderosa.

É frequentemente usado em algoritmos de reconhecimento facial, e eu o uso frequentemente em meu trabalho diário como analista de fundos de hedge.

Chris Taylor
fonte
11
SVD e PCA (embora relacionados) não são procedimentos diferentes?
B_Miner
2
Você está certo. O SVD é um método para obter uma solução para o problema do PCA.
bayerj
11
@ B_Miner Sim - é por isso que eu disse que o svd é um componente essencial do pca. Eu me concentrei em pca porque a redução questão diz respeito dimensão (para o qual pca é apropriado, e svd não é)
Chris Taylor
Talvez a palavra escolha do componente tenha sido o que temporariamente afastou o @B_Miner. :)
cardeal