Estou tentando entender algumas descrições do PCA (os dois primeiros são da Wikipedia), ênfase adicionada:
Os componentes principais são garantidos como independentes apenas se o conjunto de dados for normalmente distribuído em conjunto .
A independência dos principais componentes é muito importante? Como posso entender essa descrição?
O PCA é sensível à escala relativa das variáveis originais.
O que significa 'dimensionamento' lá? Normalização de diferentes dimensões?
A transformação é definida de tal maneira que o primeiro componente principal tenha a maior variação possível e cada componente subsequente, por sua vez, tenha a maior variação sob a restrição de que seja ortogonal aos componentes anteriores .
Você pode explicar essa restrição?
fonte
Respostas:
Q1 Os principais componentes são variáveis mutuamente ortogonais (não correlacionadas). Ortogonalidade e independência estatística não são sinônimos . Não há nada de especial nos componentes principais; o mesmo se aplica a quaisquer variáveis na análise de dados multivariada. Se os dados são normais multivariados (o que não é o mesmo que afirmar que cada uma das variáveis é univariada normal) e as variáveis não são correlacionadas, então sim, elas são independentes. Se a independência dos componentes principais é importante ou não - depende de como você os usará. Muitas vezes, sua ortogonalidade é suficiente.
Q2 Sim, escalar significa reduzir ou esticar a variação de variáveis individuais. As variáveis são as dimensões do espaço em que os dados se encontram. Os resultados do PCA - os componentes - são sensíveis à forma da nuvem de dados, à forma desse "elipsóide". Se você centralizar apenas as variáveis, deixe as variações como estão, isso geralmente é chamado de "PCA baseado em covariâncias". Se você também padronizar as variáveis para variações = 1, isso geralmente é chamado de "PCA baseado em correlações" e pode ser muito diferente do anterior (consulte um encadeamento ). Além disso, relativamente raramente as pessoas fazem PCA em dados não centralizados: dados brutos ou apenas dimensionados para a magnitude da unidade; os resultados desse PCA são muito diferentes de onde você centraliza os dados (veja a figura ).
Q3 A "restrição" é como o PCA funciona (consulte uma enorme discussão ). Imagine que seus dados são nuvem tridimensional (3 variáveis, pontos); a origem é definida no centróide (a média) dele. O PCA desenha o componente1 como tal eixo através da origem, a soma das projeções quadradas (coordenadas) nas quais é maximizada ; isto é, a variação ao longo do componente1 é maximizada. Depois que o componente1 é definido, ele pode ser removido como uma dimensão, o que significa que os pontos de dados são projetados no plano ortogonal a esse componente. Você fica com uma nuvem bidimensional. Então, novamente, você aplica o procedimento acima para encontrar o eixo da máximap p - 1n variação - agora nesta nuvem 2D remanescente. E isso será component2. Você remove o componente desenhado2 do plano projetando pontos de dados na linha ortogonal a ele. Essa linha, representando a nuvem 1D remanescente, é definida como o último componente, componente 3. Você pode ver que em cada uma dessas 3 "etapas", a análise a) encontrou a dimensão da maior variância no espaço dimensional atual , b) reduziu os dados às dimensões sem essa dimensão, ou seja, ao espaço dimensional ortogonal à dimensão mencionada. É assim que acontece que cada componente principal é uma "variação máxima" e todos os componentes são mutuamente ortogonais (veja também ).p p - 1
[ PS Observe que "ortogonal" significa duas coisas: (1) eixos variáveis como eixos fisicamente perpendiculares; (2) variáveis não correlacionadas por seus dados. Com o PCA e alguns outros métodos multivariados, essas duas coisas são a mesma coisa. Porém, com algumas outras análises (por exemplo, análise discriminante), variáveis latentes extraídas não correlacionadas não significam automaticamente que seus eixos são perpendiculares no espaço original.]
fonte