SVD de uma matriz de dados (PCA) após suavização

8

Digamos que eu tenha uma matriz de dados centrada com SVD .n×mAA=UΣVT

Por exemplo, colunas (medidas) que são espectros com frequências diferentes. A matriz é centralizada para que as linhas da matriz tenham sua média subtraída. Isso serve para interpretar os vetores singulares à esquerda como componentes principais.m=50n=100

Estou interessado em entender como o SVD muda quando suaviza cada vetor de coluna. Por exemplo, vamos suavizar cada coluna 100x1 com um kernel simples como [1/3, 2/3, 1/3].

S=[23131323131323131323131323131323]

Portanto, a nova matriz de dados é e possui algum SVD .A=SAA=UΣVT

Meu primeiro pensamento foi que, desde que , eu deveria esperar que os vetores fossem suavizados, assim como os vetores .SA=SUΣVTUiAi

Essa primeira equação parece que são autovetores de :(SU)iAAT

SA(SA)T=SUΣΣTUTST

Mas não tenho certeza sobre este próximo se é válido dizer que os são autovetores de :ViATA

(SA)TSA=VΣTUTSTSUΣVT

Quando comparo SVDs de e numericamente, os vetores singulares à esquerda não são o que eu espero, , mas eles têm uma aparência suavizada.AAUSU

Alguém pode me ajudar a relacionar e o SVD após essa simples transformação?UΣVTUΣVT

andy
fonte

Respostas:

8

Por que seus primeiros pensamentos o desencaminharam:

Quando você tira o SVD de uma matriz, e são unitários (ortogonais). Portanto, embora seja verdade que , esse não é (geralmente) o SVD da . Somente se for unitário (o que, no caso de uma matriz de suavização, não é), seria verdade que .UVSA=SUΣVTSASU=SU

Existe alguma maneira simbólica e elegante de relacionar os dois SVDs? Não consigo encontrar um. No entanto, sua matriz de suavização é uma matriz de Toeplitz. É possível que essas matrizes tenham algumas propriedades especiais que possam contribuir para uma análise mais proveitosa. Se você descobrir algo, compartilhe com o resto de nós.

O caso de alisamento extremo:

Uma maneira de pensar sobre suavização é um continuum de não suavizar ao extremo, onde suavizamos cada coluna ao seu valor médio. Agora, nesse caso extremo, a matriz teria uma classificação de 1 e haveria apenas um valor singular diferente de zero. Vejamos o SVD:

[μ1μ2...μm]=[μμ...]=1μT=1n[μn]μTμ

A última equação representa o SVD truncado. Observe que os vetores esquerdo e direito têm o comprimento 1. Você pode expandir em uma matriz ortogonal. Da mesma forma para . Depois, basta zerar a matriz do meio e você terá o SVD completo.1nμμ

Alisamento intermediário

Presumivelmente, você não fará uma suavização extrema. Então, o que isso significa para você? À medida que ampliamos a suavização, o espectro se reduz gradualmente a um único valor. Por exemplo, nas minhas simulações *:

Espectro Normal Spectrum Ortho

Conforme sugerido pela derivação acima, se aproximará do vetor 1 normalizado e se aproximará do vetor médio normalizado. Mas e os outros vetores?U1V1

À medida que seus valores singulares correspondentes diminuem, os outros e 'variam cada vez mais, até que sejam apenas escolhas arbitrárias para bases dos subespaços ortogonais a e . Ou seja, o barulho se tornará apenas.UiViU1V1

Se você precisar de alguma intuição para saber por que eles são "apenas ruído", considere que é uma soma ponderada de díades: . Poderíamos alterar completamente as direções de e , e isso afetará apenas as entradas do em menos de .SAσiUiViTUiViSAσi

Outra visualização

Aqui está outra maneira de analisar a suavização de colunas. Imagine cada linha na matriz como um ponto no espaço . À medida que suavizamos as colunas, cada ponto se aproxima do ponto anterior e do próximo. Como um todo, a nuvem de pontos diminui †:m

Nuvem de pontos de linha

Espero que isto ajude!

[*]: Eu defini uma família de smoothers cada vez mais amplas. Em termos gerais, peguei o kernel [1/4, 1/2, 1/4], convolvi vezes, prendi-o em dimensões e normalizei para que somasse 1. Depois, representei graficamente a suavização progressiva de uma ortogonal aleatória e uma matriz normal aleatória.zd

[†]: Smoothers gerados da mesma maneira. é construído como uma série de pontos no espaço que parecem interessantes.A2

Stumpy Joe Pete
fonte