O que significa “PCA (Principal Component Analysis) spheres the data” significa?

8

Eu estava lendo algumas anotações e diz que o PCA pode "esfolar os dados". O que eles definem para mim como "digitando os dados" é dividir cada dimensão pela raiz quadrada do valor próprio correspondente.

Estou assumindo que por "dimensão" eles significam cada vetor base no qual estamos projetando (ou seja, os vetores próprios para os quais estamos projetando). Então eu acho que eles estão fazendo:

ui=uieigenValue(ui)

onde ui é um dos vetores próprios (ou seja, um dos principais componentes). Então, com esse novo vetor, suponho que eles estejam projetando os dados brutos que temos, digamos x(i) para z(i) . Portanto, os pontos projetados agora seriam:

z(i)=uix(i)

Eles afirmam que isso garante que todos os recursos tenham a mesma variação.

No entanto, nem tenho certeza se minha interpretação do que eles querem dizer com sphering está correta e queria verificar se estava. Além disso, mesmo que estivesse correto, qual é o sentido de fazer algo assim? Eu sei que eles afirmam que ele garante que todos tenham a mesma variação, mas, por que queremos fazer isso e como isso é possível?

Pinóquio
fonte
2
O que você diz está certo. ué o valor de vetores próprios e está relacionado aos valores brutos do PC. u'é chamado de carregamento e está relacionado aos valores de PC normalizados (variações iguais). Você pode ler minha resposta: stats.stackexchange.com/a/35653/3277 .
ttnphns
Em outras palavras, você pode calcular os valores brutos do PC e padronizá-los para a variação (unidade) igual. Ou, para obter o mesmo resultado, primeiro você pode calcular as cargas e depois calcular os valores do PC com a ajuda deles.
ttnphns
Pelo que vale a pena, a maioria das pessoas não consideraria esse uso de 'sphere' como um verbo um estilo inglês muito bom, mesmo que seja compreensível.
Nekomatic

Respostas:

4

Sua compreensão está certa. Veja esta figura que representa várias possibilidades de seus pontos de dados: http://shapeofdata.files.wordpress.com/2013/02/pca22.png

Eles parecem elipsoidais. Se você fizer o que descreveu acima, ou seja, comprimir os pontos na direção em que eles estão mais espalhados (aproximadamente a linha de 45 graus na imagem), os pontos estarão em um círculo (esfera em dimensões mais altas).

Uma das razões pelas quais você esferifica os dados é ao prever e entender quais coordenadas são importantes. Digamos que você deseje prever usando e e obtenha os valores do coeficiente e ou seja, . Agora, se e têm a mesma variação, ou seja, eles são distribuídos aproximadamente esfericamente, e você descobre que enquanto , você pode interpretar isso dizendo que influencia mais que . Se suas escalas não fossem as mesmas, eyx1x2β1β2yβ1x1+β2x2x1x2β1=1β2=10x2yx1x1 foi distribuído 10 vezes mais que , então você obteria os valores acima de e mesmo se os dois tivessem influenciado aproximadamente o mesmo. Para resumir, você "esferifica" ou "normaliza" para fazer inferências sobre a importância da variável a partir de seu coeficiente.x2β1β2y

elexhobby
fonte