Qual é a intuição por trás do SVD?

Eu li sobre decomposição de valor singular (SVD). Em quase todos os livros didáticos, é mencionado que ela fatoriza a matriz em três matrizes com determinada especificação.

Mas qual é a intuição por trás da divisão da matriz dessa forma? O PCA e outros algoritmos para redução de dimensionalidade são intuitivos no sentido de que o algoritmo possui uma boa propriedade de visualização, mas com SVD não é o caso.

matrix linear-algebra svd intuition SHASHANK GUPTA
fonte

Você pode querer começar com a intuição da decomposição de autovalor-autovetor, pois o SVD é uma extensão para todos os tipos de matrizes, em vez de apenas quadradas.

JohnK

Há muitas notas na internet e respostas aqui no CV sobre SVD e seu funcionamento.

Vladislavs Dovgalecs 15/10

O SVD pode ser pensado como um algoritmo de compressão / aprendizado. É um descompressor linear de compressor. Uma matriz M pode ser representada pela multiplicação de SVD. S é o compressor V determina quanto erro você gostaria de ter (compressão com perda) e D é o descompressor. Se você mantiver todos os valores diagonais de V, terá um compressor sem perdas. Se você começar a jogar fora pequenos valores singulares (zerando-os), não poderá reconstruir a matriz inicial exatamente, mas ainda estará próximo. Aqui o termo fechar é medido com a norma de Frobenius.

Cagdas Ozgenc 15/10/2015

@ Cartas, se você fizer isso, defina cuidadosamente o que você está usando "S" "V" e "D" como matematicamente. Eu nunca vi as iniciais sobrecarregadas na própria notação antes (que tem os valores singulares, por exemplo?). Parece ser uma fonte provável de confusão,

Glen_b

Você sabe estimar o PCA com SVD? Se sim, você pode explicar por que sente que algo está faltando na sua compreensão do SVD? Veja isto

Aksakal

Respostas:

Escreva o SVD da matriz (real, ) como onde é , é diagonal e é . Em termos das colunas das matrizes e , podemos escrever $X$ $n\times p$

X = U D V^{T}

$X = U D V^T$

U

$U$

n \times p

$n\times p$

D

$D$

p \times p

$p\times p$

V^{T}

$V^T$

p \times p

$p\times p$

U

$U$

V

$V$

X = \sum_{i = 1}^{p} d_{i} u_{i} v_{i}^{T}

$X=\sum_{i=1}^p d_i u_i v_i^T$ . Isso mostra

escrito como uma soma de

matrizes de classificação 1. Como é uma matriz de classificação 1? Vamos ver:

As linhas são proporcionais e as colunas são proporcionais.

X

$X$

p

$p$

(\begin{matrix} 1 \\ 2 \\ 3 \end{matrix}) (\begin{matrix} 4 & 5 & 6 \end{matrix}) = (\begin{matrix} 4 & 5 & 6 \\ 8 & 10 & 12 \\ 12 & 15 & 18 \end{matrix})

$\begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix} \begin{pmatrix} 4 & 5 & 6 \end{pmatrix} = \begin{pmatrix} 4 & 5 & 6 \\ 8 & 10 & 12 \\ 12 & 15 & 18 \end{pmatrix}$

Pense agora em como contendo os valores em escala de cinza de uma imagem em preto e branco, cada entrada na matriz representando um pixel. Por exemplo, a seguinte imagem de um babuíno: $X$

Em seguida, leia esta imagem no R e obtenha a parte da matriz da estrutura resultante, talvez usando a biblioteca pixmap.

Se você deseja um guia passo a passo de como reproduzir os resultados, pode encontrar o código aqui .

Calcule o SVD:

baboon.svd  <-  svd(bab) # May take some time

$512 \times 512$ $512$ $512$ $1$ $20$

baboon.1  <-  sweep(baboon.svd$u[,1,drop=FALSE],2,baboon.svd$d[1],"*") %*%
                   t(baboon.svd$v[,1,drop=FALSE])

baboon.20 <-  sweep(baboon.svd$u[,1:20,drop=FALSE],2,baboon.svd$d[1:20],"*") %*%
                   t(baboon.svd$v[,1:20,drop=FALSE])

resultando nas duas imagens a seguir:

À esquerda, podemos ver facilmente as listras verticais / horizontais na imagem de classificação 1.

$20$

O que é bastante interessante: vemos as partes da imagem original que são difíceis de representar como superposição de linhas verticais / horizontais, principalmente pêlos do nariz na diagonal e alguma textura e os olhos!

kjetil b halvorsen
fonte

Eu acho que você quis dizer reconstrução de baixo escalão, não de baixo alcance. Deixa pra lá. Esta é uma ilustração muito boa (+1). É por isso que é um descompressor de compressor linear. A imagem é aproximada com linhas. Se você realmente executar um codificador automático semelhante com uma rede neural com funções de ativação linear, verá que ele também permite linhas com qualquer inclinação, não apenas as linhas verticais e horizontais, o que o torna um pouco mais poderoso que o SVD.

Cagdas Ozgenc 28/10/2015

X = U Σ V^{*}

$X = U \Sigma V^*$

n \times p

$n \times p$

X

$X$

U

$U$

n \times n

$n \times n$

Σ

$\Sigma$

n \times p

$n \times p$

V

$V$

p \times p

$p \times p$

Veja math.stackexchange.com/questions/92171/... para alguns outros exemplos

b Kjetil Halvorsen

@ kjetil-b-halvorsen Estou interessado em saber como a descrição mudaria se eu tivesse usado o PCA para recusar o aplicativo. Eu gostaria que você pudesse responder minha pergunta aqui stats.stackexchange.com/questions/412123/…

Dushyant Kumar

@CowboyTrader observação interessante. Minha compreensão do aprendizado de máquina / rede neural é bastante limitada. Portanto, não entendo que, se alguém tem uma única imagem barulhenta e mais nada para treinar, como a rede neural funcionaria?

Dushyant Kumar

$A$ $m \times n$ $m \geq n$ $v$ $A$

\begin{aligned} (1) & v_{1} = & \arg max_{v \in R^{n}} ‖ A v ‖_{2} \\ subject to ‖ v ‖_{2} = 1. \end{aligned}

$\begin{align} \tag{1}v_1 = \,\,& \arg \max_{v \in \mathbb R^n} \quad \| A v \|_2 \\ & \text{subject to } \, \|v\|_2 = 1. \end{align}$

v_{1}

$v_1$

A

$A$

\begin{aligned} v_{2} = & \arg max_{v \in R^{n}} ‖ A v ‖_{2} \\ subject to ⟨ v_{1}, v ⟩ = 0, \\ ‖ v ‖_{2} = 1. \end{aligned}

$\begin{align} v_2 = \,\,& \arg \max_{v \in \mathbb R^n} \quad \| A v \|_2 \\ & \text{subject to } \,\langle v_1, v \rangle = 0, \\ & \qquad \qquad \, \, \, \, \|v\|_2 = 1. \end{align}$

v_{1}, \dots, v_{n}

$v_1, \ldots, v_n$

R^{n}

$\mathbb R^n$

R^{n}

$\mathbb R^n$

A

$A$

Seja (então quantifica a potência explosiva de na direção ). Suponha que os vetores unitários sejam definidos de forma que As equações (2) podem ser expressas de forma concisa usando a notação da matriz como onde é a matriz cuja coluna é , é a matriz cuja a coluna é e $\sigma_i = \|A v_i \|_2$ $\sigma_i$ $A$ $v_i$ $u_i$

\begin{matrix} (2) & A v_{i} = σ_{i} u_{i} for i = 1, \dots, n . \end{matrix}

$\tag{2} A v_i = \sigma_i u_i \quad \text{for } i = 1, \ldots, n.$

\begin{matrix} (3) & A V = U Σ, \end{matrix}

$\tag{3} A V = U \Sigma,$

V

$V$

n \times n

$n \times n$

i

$i$

v_{i}

$v_i$

U

$U$

m \times n

$m \times n$

i

$i$

u_{i}

$u_i$

Σ

$\Sigma$ é o matriz diagonal cuja th entrada diagonal é . A matriz é ortogonal, então podemos multiplicar os dois lados de (3) por para obter Pode parecer que agora derivamos o SVD de com quase zero esforço. Até agora, nenhuma das etapas foi difícil. No entanto, falta uma parte crucial da imagem - ainda não sabemos que é ortogonal.

n \times n

$n \times n$

i

$i$

σ_{i}

$\sigma_i$

V

$V$

V^{T}

$V^T$

A = U Σ V^{T} .

$A = U \Sigma V^T.$

A

$A$

U

$U$

Aqui está o fato crucial, a peça que faltava: acontece que é ortogonal a : Eu afirmo que se isso não fosse verdade, então não seria o ideal para o problema (1). De fato, se (4) não fosse satisfeito, seria possível melhorar perturbando-o um pouco na direção . $A v_1$ $A v_2$

\begin{matrix} (4) & ⟨ A v_{1}, A v_{2} ⟩ = 0. \end{matrix}

$\tag{4} \langle A v_1, A v_2 \rangle = 0.$ $v_1$

v_{1}

$v_1$

v_{2}

$v_2$

Suponha (por uma contradição) que (4) não seja satisfeito. Se estiver ligeiramente perturbado na direção ortogonal , a norma de não será alterada (ou, pelo menos, a alteração na norma de será desprezível). Quando eu ando na superfície da terra, minha distância do centro da terra não muda. No entanto, quando é perturbado na direção , o vetor é perturbado na direção não ortogonal e, portanto, a alteração na norma de não é desprezível . A norma de $v_1$ $v_2$ $v_1$ $v_1$ $v_1$ $v_2$ $A v_1$ $A v_2$ $A v_1$ $A v_1$ pode ser aumentado em uma quantidade não desprezível. Isso significa que não é ideal para o problema (1), que é uma contradição. Adoro esse argumento porque: 1) a intuição é muito clara; 2) a intuição pode ser convertida diretamente em uma prova rigorosa. $v_1$

Um argumento semelhante mostra que é ortogonal a e e assim por diante. Os vetores são ortogonais aos pares. Isso significa que os vetores unitários podem ser escolhidos para serem ortogonais em pares, o que significa que a matriz acima é uma matriz ortogonal. Isso completa nossa descoberta do SVD. $A v_3$ $A v_1$ $A v_2$ $A v_1, \ldots, A v_n$ $u_1, \ldots, u_n$ $U$

Para converter o argumento intuitivo acima em uma prova rigorosa, devemos confrontar o fato de que se é perturbado na direção , o vetor perturbado não é verdadeiramente um vetor unitário. (Sua norma é .) Para obter uma prova rigorosa, defina O vetor é realmente um vetor de unidade. Mas, como você pode mostrar facilmente, se (4) não for satisfeito, então, para valores suficientemente pequenos de , temos (assumindo que o sinal de $v_1$ $v_2$

{\tilde{v}}_{1} = v_{1} + ϵ v_{2}

$\tilde v_1 = v_1 + \epsilon v_2$

\sqrt{1 + ϵ^{2}}

$\sqrt{1 + \epsilon^2}$

{\bar{v}}_{1} (ϵ) = \sqrt{1 - ϵ^{2}} v_{1} + ϵ v_{2} .

$\bar v_1(\epsilon) = \sqrt{1 - \epsilon^2} v_1 + \epsilon v_2.$

{\bar{v}}_{1} (ϵ)

$\bar v_1(\epsilon)$

ϵ

$\epsilon$

f (ϵ) = ‖ A {\bar{v}}_{1} (ϵ) ‖_{2}^{2} > ‖ A v_{1} ‖_{2}^{2}

$f(\epsilon) = \| A \bar v_1(\epsilon) \|_2^2 > \| A v_1 \|_2^2$

ϵ

$\epsilon$ é escolhido corretamente). Para mostrar isso, basta verificar se . Isso significa que não é ideal para o problema (1), que é uma contradição.

f^{'} (0) \neq 0

$f'(0) \neq 0$

v_{1}

$v_1$

(A propósito, eu recomendo a leitura da explicação de Qiaochu Yuan sobre o SVD aqui . Em particular, dê uma olhada no "Lema principal nº 1", que é o que discutimos acima. Como diz Qiaochu, o principal lema nº 1 é "o coração técnico de decomposição de valor singular ".)

littleO
fonte

Cara, tire uma hora do seu dia e assista a esta palestra: https://www.youtube.com/watch?v=EokL7E6o1AE

Esse cara é super direto, é importante não pular nada, porque tudo acaba junto no final. Mesmo que pareça um pouco lento no começo, ele está tentando identificar um ponto crítico, o que faz!

Vou resumir para você, em vez de apenas fornecer as três matrizes que todo mundo faz (porque isso estava me confundindo quando li outras descrições). De onde vêm essas matrizes e por que as configuramos assim? A palestra acertou em cheio! Toda matriz (sempre na história da eternidade) pode ser construída a partir de uma matriz base com as mesmas dimensões, depois girá-la e esticá-la (esse é o teorema fundamental da álgebra linear). Cada uma dessas três matrizes que as pessoas jogam representa uma matriz inicial (U), uma matriz de escala (sigma) e uma matriz de rotação (V).

A matriz de escala mostra quais vetores de rotação estão dominando, esses são chamados de valores singulares. A decomposição está resolvendo para U, sigma e V.

Tim Johnsen
fonte