Normalizei meu conjunto de dados e, em seguida, executei o PCA de 3 componentes para obter pequenas razões de variação explicadas ([0,50, 0,1, 0,05]).
Quando não normalizei, mas embranqueci meu conjunto de dados e executei o PCA de 3 componentes, obtive altas taxas de variação explicadas ([0,86, 0,06,0,01]).
Como quero reter o máximo de dados em três componentes, NÃO devo normalizar os dados? Pelo meu entendimento, sempre devemos normalizar antes do PCA.
Normalizando: definindo média para 0 e tendo variação de unidade.
Respostas:
Depende do objetivo da sua análise. Algumas práticas comuns, algumas das quais são mencionadas no link do whuber:
Exemplo intuitivo:
Suponha que você tenha duas variáveis: a altura de uma árvore e a circunferência da mesma árvore. Converteremos o volume em um fator: uma árvore terá alto volume se seu volume for maior que 20 pés cúbicos e, caso contrário, com baixo volume. Usaremos o conjunto de dados de árvores que vem pré-carregado em R.
Agora, suponha que a altura fosse realmente medida em quilômetros, em vez de pés.
O primeiro componente explica quase 100% da variabilidade nos dados. As cargas:
Avaliação gráfica:
Vemos que as árvores com alto volume tendem a ter um perímetro elevado, mas a altura das três não fornece nenhuma informação sobre o volume da árvore. Provavelmente, isso está errado e a consequência das duas medidas unitárias diferentes.
Poderíamos usar as mesmas unidades ou padronizar as variáveis. Espero que ambos levem a uma imagem mais equilibrada da variabilidade. É claro que, neste caso, pode-se argumentar que as variáveis devem ter a mesma unidade, mas não devem ser padronizadas, o que pode ser um argumento válido, se não estivéssemos medindo duas coisas diferentes. (Quando mediríamos o peso e a circunferência da árvore, a escala na qual ambas devem ser medidas não é mais muito clara. Nesse caso, temos um argumento claro para trabalhar com as variáveis padronizadas.)
Vemos agora que as árvores altas e com grande perímetro têm alto volume (canto inferior esquerdo), em comparação com perímetro baixo e baixa altura para árvores de baixo volume (canto superior direito). Isso intuitivamente faz sentido.
Se observarmos atentamente, porém, vemos que o contraste entre volume alto / baixo é mais forte na direção da circunferência e não na direção da altura. Vamos ver o que acontece quando padronizamos:
De fato, a circunferência agora explica a maior parte da diferença em árvores de alto e baixo volume! (O comprimento da seta no biplot é indicativo da variação na variável original.) Portanto, mesmo que as coisas sejam medidas na mesma escala, a padronização pode ser útil. Não padronizar pode ser recomendado quando comparamos, por exemplo, o comprimento de diferentes espécies de árvores, porque essa é exatamente a mesma medida.
fonte