Exemplos de PCA em que PCs com baixa variação são "úteis"

24

Normalmente, na análise de componentes principais (PCA), os primeiros PCs são usados ​​e os PCs de baixa variância são descartados, pois não explicam grande parte da variação nos dados.

No entanto, existem exemplos em que os PCs de baixa variação são úteis (ou seja, são utilizados no contexto dos dados, têm uma explicação intuitiva etc.) e não devem ser descartados?

Michael
fonte
5
Muito poucos. Veja PCA, aleatoriedade do componente? Isso pode até ser uma duplicata, mas seu título é muito mais claro (portanto, provavelmente mais fácil de encontrar na pesquisa); portanto, não o exclua mesmo que seja fechado.
Nick Stauner

Respostas:

18

Aqui está um trecho interessante de Jolliffe (1982) que eu não incluí na minha resposta anterior à pergunta muito semelhante, " Componentes de baixa variação no PCA, eles são realmente apenas ruído? Existe alguma maneira de testá-lo? " muito intuitivo.

Suponha que seja necessário prever a altura da base de nuvem, , um problema importante nos aeroportos. Várias variáveis ​​climáticas são medidas, incluindo a temperatura superficial T s e o ponto de orvalho da superfície, T d . Aqui, T d é a temperatura à qual o ar na superfície seria saturado com vapor de água, e a diferença T s - T d , é uma medida da humidade da superfície. Agora T s , t d são geralmente correlacionada positivamente, então uma análise de componentes principais das variáveis climatéricas terá uma componente de alta variância que está altamente correlacionado com o tHTsTdTdTs-TdTs,Td , e um componente de baixa variância que é similarmente correlacionado com T s - T d . Mas H está relacionada com a humidade e, por conseguinte, para o t s - T d , isto é, a uma baixa variação em vez de um componente de elevada variação, de modo que uma estratégia que rejeita componentes de baixa variância dará previsões pobres para H .Ts+TdTs-TdHTs-TdH
A discussão deste exemplo é necessariamente vaga por causa dos efeitos desconhecidos de quaisquer outras variáveis ​​climáticas que também são medidas e incluídas na análise. No entanto, mostra um caso fisicamente plausível em que uma variável dependente estará relacionada a um componente de baixa variância, confirmando os três exemplos empíricos da literatura.
Além disso, o exemplo de base de nuvem foi testado em dados do aeroporto de Cardiff (País de Gales) para o período de 1966 a 1973, com uma variável climática extra, a temperatura da superfície do mar, também incluída. Os resultados foram essencialmente como previsto acima. O último componente principal era aproximadamente , e representava apenas 0,4% da variação total. No entanto, em um principal componente de regressão era facilmente o indicador mais importante para H . [Enfase adicionada]Ts-TdH

Os três exemplos da literatura mencionados na última frase do segundo parágrafo foram os três que mencionei na minha resposta à pergunta vinculada .


Referência
Jolliffe, IT (1982). Nota sobre o uso de componentes principais na regressão. Estatística Aplicada, 31 (3), 300–303. Recuperado em http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .

Nick Stauner
fonte
V(UMA+B)=V(UMA)+V(B)+2Cov(UMA,B)V(UMA-B)=V(UMA)+V(B)-2Cov(UMA,B)Ts-Td
+1, este é um bom exemplo. Curiosamente, é também um exemplo de supressão.
gung - Restabelece Monica
17

Se você possui R, há um bom exemplo nos crabsdados no pacote MASS.

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

Mais de 98% da variação é "explicada" pelos dois primeiros PCs, mas, de fato, se você realmente coletou essas medidas e as estudou, o terceiro PC é muito interessante, porque está intimamente relacionado às espécies do caranguejo. Mas é inundado por PC1 (que parece corresponder ao tamanho do caranguejo) e PC2 (que parece corresponder ao sexo do caranguejo).

insira a descrição da imagem aqui

insira a descrição da imagem aqui

Solha
fonte
2
+1, esta é uma demonstração realmente interessante. Fiz 2 matrizes de dispersão que podem ser adicionadas, se você quiser.
gung - Restabelece Monica
11
@gung: Obrigado por adicionar os gráficos de dispersão! Eu votei esta resposta antes, mas não a apreciei totalmente sem ver as parcelas. O Scatterplot PC2 vs PC3 é muito bom: separar os gêneros e as espécies quase perfeitamente. Também gosto desse exemplo porque ilustra o que acontece quando todas as variáveis ​​são fortemente correlacionadas positivamente (ou seja, PC1 explica muita variação e é basicamente uma média).
Ameba diz Reinstate Monica
11
Obrigado, @amoeba. Eu realmente gosto do jeito que eles acabaram. Passei muito tempo futzing w / them (cores, pch, lables, lenda). Na verdade, acho que eles são meio bonitos agora. Você faz uma boa observação sobre o PC1. Também podemos ver que há (provavelmente) um coeficiente constante de variação e uma interação por sexo e / ou espécie em muitos dos relacionamentos: pequenos caranguejos (bebê?) Tendem a ter os mesmos valores independentemente do sexo ou espécie, mas como eles crescem (idade?) eles se tornam mais distintos. Etc. Há muitas coisas legais para ver - você pode continuar olhando para elas.
gung - Restabelece Monica
8

Aqui estão dois exemplos da minha experiência (quimiometria, espectroscopia óptica / vibracional / Raman):

  • Recentemente, tive dados de espectroscopia óptica, em que> 99% da variação total dos dados brutos ocorreu devido a alterações na luz de fundo (holofotes mais ou menos intensos no ponto medido, lâmpadas fluorescentes ligadas / desligadas, mais ou menos nuvens antes) o sol). Após a correção de segundo plano com os espectros ópticos dos fatores de influência conhecidos (extraídos pelo PCA nos dados brutos; medições extras tomadas para cobrir essas variações), o efeito em que estávamos interessados ​​apareceu nos PCs 4 e 5. Nos
    PCs 1 e 3, onde devido a outros efeitos na amostra medida, e o PC 2 se correlaciona com o aquecimento da ponta do instrumento durante as medições.

  • Em outra medição, uma lente sem correção de cor para a faixa espectral medida foi usada. A aberração cromática levou a distorções nos espectros responsáveis ​​por ca. 90% da variação total dos dados pré-processados ​​(capturados principalmente no PC 1).
    Para esses dados, demoramos bastante tempo para perceber o que exatamente havia acontecido, mas a mudança para um objetivo melhor resolveu o problema para experimentos posteriores.

(Não posso mostrar detalhes, pois esses estudos ainda não foram publicados)

cbeleites suporta Monica
fonte
3

Percebi que PCs com baixa variação são mais úteis ao executar um PCA em uma matriz de covariância em que os dados subjacentes são agrupados ou agrupados de alguma maneira. Se um dos grupos tiver uma variação média substancialmente menor do que os outros grupos, os PCs menores serão dominados por esse grupo. No entanto, você pode ter algum motivo para não querer descartar os resultados desse grupo.

Em finanças, o retorno das ações tem cerca de 15 a 25% de desvio padrão anual. Alterações no rendimento dos títulos são historicamente muito mais baixos do desvio padrão. Se você executar PCA na matriz de covariância dos retornos das ações e alterações no rendimento dos títulos, os PCs principais refletirão a variação das ações e os menores refletirão as variações das obrigações. Se você jogar fora os PJs que explicam os laços, poderá ter alguns problemas. Por exemplo, os títulos podem ter características distributivas muito diferentes das ações (caudas mais finas, diferentes propriedades de variação no tempo, diferentes reversões médias, cointegração etc.). Isso pode ser muito importante para modelar, dependendo das circunstâncias.

Se você executar o PCA na matriz de correlação, poderá ver mais PCs explicando os vínculos perto do topo.

John
fonte
Essa resposta é muito difícil de entender se não se sabe o que são ações, títulos, rendimentos e retornos. Eu não, e por isso não consigo ver como a sua primeira frase está relacionada à sua segunda ...
ameba diz Reinstate Monica
11
Eu fiz algumas edições.
John #
1

Em essa conversa ( diapositivos ) os apresentadores discutir o uso de PCA para discriminar entre a alta variabilidade e características baixa variabilidade.

Na verdade, eles preferem os recursos de baixa variabilidade para detecção de anomalias, pois uma mudança significativa em uma dimensão de baixa variabilidade é um forte indicador de comportamento anômalo. O exemplo motivador que eles fornecem é o seguinte:

Suponha que um usuário sempre faça login em um Mac. A dimensão "sistema operacional" de sua atividade seria uma variação muito baixa. Mas se vimos um evento de login desse mesmo usuário em que o "sistema operacional" era o Windows, isso seria muito interessante e algo que gostaríamos de capturar.

turtlemonvh
fonte