Eu estava lendo algumas anotações e diz que o PCA pode "esfolar os dados". O que eles definem para mim como "digitando os dados" é dividir cada dimensão pela raiz quadrada do valor próprio correspondente.
Estou assumindo que por "dimensão" eles significam cada vetor base no qual estamos projetando (ou seja, os vetores próprios para os quais estamos projetando). Então eu acho que eles estão fazendo:
onde é um dos vetores próprios (ou seja, um dos principais componentes). Então, com esse novo vetor, suponho que eles estejam projetando os dados brutos que temos, digamos para . Portanto, os pontos projetados agora seriam:
Eles afirmam que isso garante que todos os recursos tenham a mesma variação.
No entanto, nem tenho certeza se minha interpretação do que eles querem dizer com sphering está correta e queria verificar se estava. Além disso, mesmo que estivesse correto, qual é o sentido de fazer algo assim? Eu sei que eles afirmam que ele garante que todos tenham a mesma variação, mas, por que queremos fazer isso e como isso é possível?
u
é o valor de vetores próprios e está relacionado aos valores brutos do PC.u'
é chamado de carregamento e está relacionado aos valores de PC normalizados (variações iguais). Você pode ler minha resposta: stats.stackexchange.com/a/35653/3277 .Respostas:
Sua compreensão está certa. Veja esta figura que representa várias possibilidades de seus pontos de dados: http://shapeofdata.files.wordpress.com/2013/02/pca22.png
Eles parecem elipsoidais. Se você fizer o que descreveu acima, ou seja, comprimir os pontos na direção em que eles estão mais espalhados (aproximadamente a linha de 45 graus na imagem), os pontos estarão em um círculo (esfera em dimensões mais altas).
Uma das razões pelas quais você esferifica os dados é ao prever e entender quais coordenadas são importantes. Digamos que você deseje prever usando e e obtenha os valores do coeficiente e ou seja, . Agora, se e têm a mesma variação, ou seja, eles são distribuídos aproximadamente esfericamente, e você descobre que enquanto , você pode interpretar isso dizendo que influencia mais que . Se suas escalas não fossem as mesmas, ey x1 x2 β1 β2 y∼β1x1+β2x2 x1 x2 β1=1 β2=10 x2 y x1 x1 foi distribuído 10 vezes mais que , então você obteria os valores acima de e mesmo se os dois tivessem influenciado aproximadamente o mesmo. Para resumir, você "esferifica" ou "normaliza" para fazer inferências sobre a importância da variável a partir de seu coeficiente.x2 β1 β2 y
fonte