Estou lendo um artigo em que o autor descarta várias variáveis devido à alta correlação com outras variáveis antes de fazer o PCA. O número total de variáveis é de cerca de 20.
Isso oferece algum benefício? Parece uma sobrecarga para mim, pois o PCA deve lidar com isso automaticamente.
correlation
pca
tipo 2
fonte
fonte
Respostas:
Isso explica a dica perspicaz fornecida em um comentário por @ttnphns.
As variáveis adjacentes quase correlacionadas aumentam a contribuição de seu fator subjacente comum para o PCA. Podemos ver isso geometricamente. Considere estes dados no plano XY, mostrados como uma nuvem de pontos:
Há pouca correlação, covariância aproximadamente igual e os dados são centralizados: o PCA (não importa como conduzido) reportaria dois componentes aproximadamente iguais.
Vamos agora lançar uma terceira variável igual a mais uma pequena quantidade de erro aleatório. A matriz de correlação de mostra isso com os pequenos coeficientes fora da diagonal, exceto entre a segunda e a terceira linhas e colunas ( e ):Y ( X , Y , Z ) Y ZZ Y ( X, Y, Z) Y Z
Geometricamente, deslocamos todos os pontos originais quase na vertical, levantando a imagem anterior diretamente do plano da página. Essa nuvem de pontos pseudo 3D tenta ilustrar o levantamento com uma vista em perspectiva lateral (com base em um conjunto de dados diferente, embora gerado da mesma maneira que antes):
Os pontos originalmente estão no plano azul e são elevados aos pontos vermelhos. O eixo original aponta para a direita. A inclinação resultante também estende os pontos ao longo das direções YZ, dobrando assim sua contribuição para a variação. Consequentemente, um PCA desses novos dados ainda identificaria dois componentes principais principais, mas agora um deles terá o dobro da variação do outro.Y
Essa expectativa geométrica é confirmada com algumas simulações noX2 X5
R
. Por isso, repeti o procedimento de "levantamento" criando cópias quase colineares da segunda variável pela segunda, terceira, quarta e quinta vez, nomeando-as de a . Aqui está uma matriz de gráfico de dispersão mostrando como essas quatro últimas variáveis estão bem correlacionadas:X 5O PCA é feito usando correlações (embora realmente não importe para esses dados), usando as duas primeiras variáveis, depois três, ... e finalmente cinco. Mostro os resultados usando gráficos das contribuições dos principais componentes para a variação total.
Inicialmente, com duas variáveis quase não correlacionadas, as contribuições são quase iguais (canto superior esquerdo). Depois de adicionar uma variável correlacionada à segunda - exatamente como na ilustração geométrica -, ainda existem apenas dois componentes principais, um agora com o dobro do tamanho da outra. (Um terceiro componente reflete a falta de correlação perfeita; mede a "espessura" da nuvem semelhante a uma panqueca no gráfico de dispersão 3D.) Após adicionar outra variável correlacionada ( ), o primeiro componente agora representa cerca de três quartos do total ; após a adição de um quinto, o primeiro componente representa quase quatro quintos do total. Nos quatro casos, os componentes após o segundo provavelmente seriam considerados inconseqüentes pela maioria dos procedimentos de diagnóstico da PCA; no último caso,X4 um componente principal que vale a pena considerar.
Podemos ver agora que pode haver mérito em descartar variáveis que se pensa estarem medindo o mesmo aspecto subjacente (mas "latente") de uma coleção de variáveis , porque a inclusão de variáveis quase redundantes pode fazer com que o PCA superestime sua contribuição. Não há nada matematicamente certo (ou errado) nesse procedimento; é uma chamada de julgamento com base nos objetivos analíticos e no conhecimento dos dados. Mas deve ficar bem claro que deixar de lado variáveis conhecidas por serem fortemente correlacionadas com outras pode ter um efeito substancial nos resultados da APC.
Aqui está o
R
código.fonte
Ilustrarei ainda mais o mesmo processo e idéia que o @whuber, mas com os gráficos de carregamento - porque os carregamentos são a essência dos resultados do PCA.
As plotagens de carregamento dos 2 primeiros componentes principais desaparecem. Picos vermelhos nos gráficos indicam correlações entre as variáveis, de modo que o conjunto de vários picos é onde um conjunto de variáveis fortemente correlacionadas é encontrado. Os componentes são as linhas cinzas; a "força" relativa de um componente (sua magnitude relativa do valor próprio) é dada pelo peso da linha.
Dois efeitos da adição de "cópias" podem ser observados:
Não vou retomar a moral porque a @whuber já fez isso.
Adição2. Além disso, eu estava falando sobre "espaço variável" e "espaço sujeito" como se fossem incompatíveis juntos, como água e óleo. Eu tive que reconsiderá-lo e posso dizer que - pelo menos quando falamos sobre PCA - ambos os espaços são isomórficos no final, e por essa virtude podemos exibir corretamente todos os detalhes do PCA - pontos de dados, eixos variáveis, eixos componentes, variáveis como pontos, - em um único biplot sem distorção.
Abaixo estão o gráfico de dispersão (espaço variável) e o gráfico de carregamento (espaço do componente, que é o espaço sujeito por sua origem genética). Tudo o que poderia ser mostrado por um, também poderia ser mostrado por outro. As imagens são idênticas , giradas apenas 45 graus (e refletidas, neste caso em particular) uma em relação à outra. Esse foi um PCA das variáveis v1 e v2 (padronizado, portanto, foi r que foi analisado). Linhas pretas nas figuras são as variáveis como eixos; linhas verdes / amarelas são os componentes como eixos; pontos azuis são a nuvem de dados (sujeitos); pontos vermelhos são as variáveis exibidas como pontos (vetores).
fonte
The software was free to choose any orthogonal basis for that space, arbitrarily
se aplica à nuvem redonda no espaço variável (ou seja, gráfico de dispersão de dados, como a 1ª imagem na sua resposta), mas o gráfico de carregamento é um espaço de assunto em que variáveis, não casos, são pontos (vetores).Sem detalhes do seu artigo, eu suporia que esse descarte de variáveis altamente correlacionadas foi feito apenas para economizar energia ou carga de trabalho computacional. Não vejo uma razão para o PCA "quebrar" para variáveis altamente correlacionadas. Projetar dados de volta nas bases encontradas pelo PCA tem o efeito de embranquecer os dados (ou des correlacioná-los). Esse é o ponto principal por trás do PCA.
fonte
Pelo meu entendimento, as variáveis correlacionadas estão bem, porque o PCA gera vetores ortogonais.
fonte
Bem, isso depende do seu algoritmo. Variáveis altamente correlacionadas podem significar uma matriz mal condicionada. Se você usar um algoritmo sensível a isso, poderá fazer sentido. Mas ouso dizer que a maioria dos algoritmos modernos usados para gerar valores próprios e vetores próprios são robustos a isso. Tente remover as variáveis altamente correlacionadas. Os valores próprios e o vetor próprio mudam muito? Se o fizerem, o mau condicionamento pode ser a resposta. Como variáveis altamente correlacionadas não adicionam informações, a decomposição do PCA não deve mudar
fonte
Depende de qual princípio o método de seleção de componentes que você usa, não é?
Eu costumo usar qualquer componente principal com um valor próprio> 1. Portanto, isso não me afetaria.
E a partir dos exemplos acima, mesmo o método scree plot geralmente escolheria o método correto. SE VOCÊ MANTER TUDO ANTES DO COTOVELO. No entanto, se você simplesmente selecionasse o componente principal com o valor próprio 'dominante', seria desviado. Mas esse não é o caminho certo para usar um scree plot!
fonte