Suponhamos que tem uma conjunto de dados -dimensional onde os dimensões são aproximadamente ortogonal (ter correlação zero).
Existe alguma utilidade em termos de:
- Visualização
- Representação (para eficiência do classificador)
- Ou outros critérios
executar redução de dimensionalidade nos dados?
pca
dimensionality-reduction
user1172468
fonte
fonte
Respostas:
Queria esclarecer um comentário que deixei sob a resposta de @ Peter-Flom, mas provavelmente vale a pena escrever uma resposta. Até que ponto você pode reduzir dimensões executando o PCA em dados quase ortogonais? A resposta é "depende" se você executa o PCA na matriz de correlação ou covariância .
Se você estiver usando o PCA na matriz de correlação, como isso será um pouco diferente da matriz de identidade, haverá uma simetria esférica que torna todas as direções "igualmente informativas". Reescalonar as variações de suas variáveis para uma anterior ao PCA é uma abordagem matematicamente equivalente que produzirá o mesmo resultado. Embora a saída do PCA identifique alguns componentes com variação ligeiramente mais baixa que outros, isso pode ser atribuído (se assumirmos correlação zero na população) a nada mais do que variação aleatória na amostra, portanto, não seria um bom motivo para descartar esses componentes. De fato, essa disparidade entre os desvios padrão dos componentes deve diminuir em magnitude à medida que aumentamos o tamanho da amostra. Podemos confirmar isso em uma simulação.
Resultado:
No entanto, se você fizer o PCA usando a matriz de covariância em vez da matriz de correlação (equivalentemente: se não escalarmos os desvios padrão para 1 antes de aplicar o PCA), a resposta dependerá da dispersão de suas variáveis. Se suas variáveis têm a mesma variação, ainda temos simetria esférica, portanto não há uma "direção privilegiada" e a redução dimensional não pode ser alcançada.
Porém, com uma mistura de variáveis de alta e baixa variância, a simetria é mais como um elipsóide com alguns eixos largos e outros finos. Nesta situação, haverá componentes de alta variância carregando nas variáveis de alta variância (onde o elipsóide é largo) e componentes de baixa variância carregando nas variáveis de baixa variância (em quais direções o elipsóide é estreito).
Se as variáveis tiverem variações muito diferentes (geometricamente um elipsóide novamente, mas com todos os eixos diferentes), a ortogonalidade permitirá que o primeiro PC carregue muito na variável de maior variação e assim por diante.
Nos dois últimos casos, houve componentes de baixa variação que você pode considerar jogar fora para obter uma redução dimensional, mas fazer isso é exatamente equivalente a jogar fora as variáveis de menor variação em primeiro lugar . Essencialmente, a ortogonalidade permite identificar componentes de baixa variação com variáveis de baixa variação; portanto, se você pretende reduzir a dimensionalidade dessa maneira, não está claro se você se beneficiaria do uso do PCA para fazer isso.
Nota bene: o tempo gasto discutindo o caso em que as variáveis não são redimensionadas para a variação unitária - isto é, usando a covariância em vez da matriz de correlação - não deve ser tomada como uma indicação de que essa abordagem é de alguma forma mais importante, e certamente não que é melhor". A simetria da situação é simplesmente mais sutil, sendo necessária uma discussão mais longa.
fonte
Você pode tentar um método de aprendizado múltiplo de redução de dimensionalidade não linear mais geral, como incorporação localmente linear, mapas automáticos da Lapônia ou t-SNE.
É perfeitamente possível que exista um subespaço de dimensão inferior (coletor) em seus dados de uma maneira que deixe 0 correlação entre as dimensões da base N. Por exemplo, um círculo de pontos sobre a origem ou forma de onda, como visto aqui . O PCA não atenderá, mas outros métodos o farão.
Observar esses métodos é especialmente interessante e comum para visualização e análise exploratória de dados. Para uso em um classificador ou outro modelo, você precisará se restringir aos métodos que podem ser adequados ao treinamento e aplicados no teste, o que exclui muitos desses métodos. Se esse for seu principal interesse, você também deve procurar métodos para pré-treinamento não supervisionado e engenharia de recursos (supervisionada).
fonte
Se todas as N variáveis forem aproximadamente ortogonais, a redução da dimensão fará uma redução relativamente pequena. Por exemplo, em
R
Em essência, "ortogonal" implica "já em seu menor tamanho".
fonte
x1<-rnorm(100, sd=0.1)
epcsol <- princomp(df1, cor=FALSE)
e há uma diferença, especialmente se olharmos parasummary(pcsol)
. (Eu não estou sugerindo cov é uma abordagem melhor do que cor, só que é possível.)