Normalmente, na análise de componentes principais (PCA), os primeiros PCs são usados e os PCs de baixa variância são descartados, pois não explicam grande parte da variação nos dados.
No entanto, existem exemplos em que os PCs de baixa variação são úteis (ou seja, são utilizados no contexto dos dados, têm uma explicação intuitiva etc.) e não devem ser descartados?
Respostas:
Aqui está um trecho interessante de Jolliffe (1982) que eu não incluí na minha resposta anterior à pergunta muito semelhante, " Componentes de baixa variação no PCA, eles são realmente apenas ruído? Existe alguma maneira de testá-lo? " muito intuitivo.
Os três exemplos da literatura mencionados na última frase do segundo parágrafo foram os três que mencionei na minha resposta à pergunta vinculada .
Referência
Jolliffe, IT (1982). Nota sobre o uso de componentes principais na regressão. Estatística Aplicada, 31 (3), 300–303. Recuperado em http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
fonte
Se você possui R, há um bom exemplo nos
crabs
dados no pacote MASS.Mais de 98% da variação é "explicada" pelos dois primeiros PCs, mas, de fato, se você realmente coletou essas medidas e as estudou, o terceiro PC é muito interessante, porque está intimamente relacionado às espécies do caranguejo. Mas é inundado por PC1 (que parece corresponder ao tamanho do caranguejo) e PC2 (que parece corresponder ao sexo do caranguejo).
fonte
Aqui estão dois exemplos da minha experiência (quimiometria, espectroscopia óptica / vibracional / Raman):
Recentemente, tive dados de espectroscopia óptica, em que> 99% da variação total dos dados brutos ocorreu devido a alterações na luz de fundo (holofotes mais ou menos intensos no ponto medido, lâmpadas fluorescentes ligadas / desligadas, mais ou menos nuvens antes) o sol). Após a correção de segundo plano com os espectros ópticos dos fatores de influência conhecidos (extraídos pelo PCA nos dados brutos; medições extras tomadas para cobrir essas variações), o efeito em que estávamos interessados apareceu nos PCs 4 e 5. Nos
PCs 1 e 3, onde devido a outros efeitos na amostra medida, e o PC 2 se correlaciona com o aquecimento da ponta do instrumento durante as medições.
Em outra medição, uma lente sem correção de cor para a faixa espectral medida foi usada. A aberração cromática levou a distorções nos espectros responsáveis por ca. 90% da variação total dos dados pré-processados (capturados principalmente no PC 1).
Para esses dados, demoramos bastante tempo para perceber o que exatamente havia acontecido, mas a mudança para um objetivo melhor resolveu o problema para experimentos posteriores.
(Não posso mostrar detalhes, pois esses estudos ainda não foram publicados)
fonte
Percebi que PCs com baixa variação são mais úteis ao executar um PCA em uma matriz de covariância em que os dados subjacentes são agrupados ou agrupados de alguma maneira. Se um dos grupos tiver uma variação média substancialmente menor do que os outros grupos, os PCs menores serão dominados por esse grupo. No entanto, você pode ter algum motivo para não querer descartar os resultados desse grupo.
Em finanças, o retorno das ações tem cerca de 15 a 25% de desvio padrão anual. Alterações no rendimento dos títulos são historicamente muito mais baixos do desvio padrão. Se você executar PCA na matriz de covariância dos retornos das ações e alterações no rendimento dos títulos, os PCs principais refletirão a variação das ações e os menores refletirão as variações das obrigações. Se você jogar fora os PJs que explicam os laços, poderá ter alguns problemas. Por exemplo, os títulos podem ter características distributivas muito diferentes das ações (caudas mais finas, diferentes propriedades de variação no tempo, diferentes reversões médias, cointegração etc.). Isso pode ser muito importante para modelar, dependendo das circunstâncias.
Se você executar o PCA na matriz de correlação, poderá ver mais PCs explicando os vínculos perto do topo.
fonte
Em essa conversa ( diapositivos ) os apresentadores discutir o uso de PCA para discriminar entre a alta variabilidade e características baixa variabilidade.
Na verdade, eles preferem os recursos de baixa variabilidade para detecção de anomalias, pois uma mudança significativa em uma dimensão de baixa variabilidade é um forte indicador de comportamento anômalo. O exemplo motivador que eles fornecem é o seguinte:
fonte