Por que as pessoas usam o PCA quando há tantos problemas?

8

(Essa é uma pergunta simples) Recentemente, eu estou aprendendo a Análise de componentes principais e parece ter muitos problemas:

  1. É necessário transformar os dados em aproximadamente a mesma escala antes de aplicar o PCA, mas como a escala do recurso deve ser executada não é especificada. Estandardização? Dimensionamento para o comprimento da unidade? Transformação de log? Transformação Box-Cox? Acredito que todos eles funcionam de alguma forma, mas eles respondem a perguntas diferentes, e não é trivial descobrir a transformação dada a um problema.
  2. Para executar a PCA, os valores próprios e os vetores próprios devem ser calculados, mas os sinais dos vetores próprios são indeterminados. À primeira vista, o SVD poderia ser uma boa solução, pois fornece o mesmo resultado em diferentes implementações. No entanto, pelo que entendi, o resultado do SVD é apenas uma escolha arbitrária, mas reproduzível de vetores próprios.
  3. Componentes principais são combinações lineares de variáveis, mas elas fazem sentido? Quero dizer, você não pode adicionar a temperatura do corpo de um macaco a dez vezes o comprimento da cauda, ​​porque eles são de unidades diferentes. (Falando da unidade, qual sistema de unidades você deve usar é outro aspecto do meu primeiro ponto)
  4. Ao tentar interpretar os componentes principais, você deve inspecionar o carregamento (coeficiente) do componente no ésimo elemento ou sua correlação ? Rencher (1992) recomenda apenas analisar os coeficientes, mas, tanto quanto eu sei, não há consenso sobre esse assunto.iyijXjcorr(yi,Xj)

Em resumo, o PCA é um método estatístico (ou discutivelmente matemático) que me parece bastante imaturo, pois introduz numerosas subjetividades e preconceitos ao longo de todo o processo. No entanto, continua sendo um dos métodos de análise multivariada mais amplamente utilizados. Por que é isso? Como as pessoas superam os problemas que levantei? Eles estão cientes deles?

Referências:

Rencher, AC "Interpretação de funções discriminantes canônicas, variáveis ​​canônicas e componentes principais". The American Statistician, 46 (1992), 217-225.

nalzok
fonte
O PCA é bastante maduro, mas seu problema nº 1 é extremamente importante. Você pode lidar bem com os outros problemas, por exemplo, usando uma regressão linear simples para reajustar os PCs em termos de variáveis ​​brutas. Também existem várias maneiras de aproximar PCs para fins descritivos / de decodificação. Analiso algumas delas no meu livro Estratégias de modelagem de regressão e nas notas do curso .
Frank Harrell
2
Questão 2: Por que as pessoas usam raízes quadradas quando têm tantos problemas? Se você pegar a raiz quadrada de 4, pode ser 2, mas também pode ser -2. À primeira vista, a obtenção de valor positivo pode ser uma boa solução, mas é apenas uma escolha arbitrária, mas reproduzível de sinal. As raízes quadradas parecem bastante imaturas para mim.
Ameba
11
@amoeba No contexto do PCA, a edição 2 pode ser uma IMO muito mais séria. Se você usar apenas o primeiro componente principal, como no caso da raiz quadrada, existem 2 resultados possíveis (+, -). No entanto, se você considerar componentes principais, terá sinais indeterminados, resultando em resultados diferentes. Para , existem +++, ++ -, + - +, + -, .- ++, - + -, - +, ---, o que já é muito! pp2pp=3
Nalzok 13/05/19
4
A "arbitrariedade de sinal" é apenas um artefato de como representamos os resultados do PCA. Não há arbitrariedade para o próprio PCA: os espaços próprios com os quais trabalha são perfeitamente bem definidos. As questões (1) e (3) são vantagens do PCA, pois permitem o uso apropriado do conhecimento do assunto e dos objetivos da análise. Referir-se a isso como "imaturo" perde muito o ponto principal da análise estatística, o IMHO, que é resolver problemas reais de maneiras criativas e baseadas em princípios (em oposição a despejar dados em caixas-pretas).
whuber
3
O que não vejo aqui mencionado ainda é que muitos usam o PCA da mesma maneira que usaria um histograma, gráfico de densidade ou gráfico de dispersão: um meio para inspecionar dados rapidamente, em vez de uma solução final para um problema. O PCA é útil para esse fim à medida que o número de dimensões aumenta, mas é claro que é mais informativo se for tomado cuidado ao escolher se e como dimensionar.
Frans Rodenburg

Respostas:

4

A "arbitrariedade de sinal" é apenas um artefato de como representamos os resultados do PCA. Não há arbitrariedade para o próprio PCA: os espaços próprios com os quais trabalha são perfeitamente bem definidos. As questões (1) e (3) são vantagens do PCA, pois permitem o uso apropriado do conhecimento do assunto e dos objetivos da análise. Referir-se a isso como "imaturo" perde muito o ponto principal da análise estatística, o IMHO, que é resolver problemas reais de maneiras criativas e baseadas em princípios (em oposição a despejar dados em caixas-pretas).

- whuber

O que não vejo aqui mencionado ainda é que muitos usam o PCA da mesma maneira que usaria um histograma, gráfico de densidade ou gráfico de dispersão: um meio para inspecionar dados rapidamente, em vez de uma solução final para um problema. O PCA é útil para esse fim à medida que o número de dimensões aumenta, mas é claro que é mais informativo se for tomado cuidado ao escolher se e como dimensionar.

- Frans Rodenburg

mkt - Restabelecer Monica
fonte
2
Copiei esses comentários como uma resposta wiki da comunidade porque são, mais ou menos, respostas a esta pergunta. Temos uma lacuna dramática entre respostas e perguntas. Pelo menos parte do problema é que algumas perguntas são respondidas nos comentários: se os comentários que responderam à pergunta fossem respostas, teríamos menos perguntas sem resposta.
mkt - Restabelece Monica
3
+1. Você não precisa fazer essas respostas CW, btw; mas é claro que tudo bem se você preferir.
ameba
@amoeba Obrigado, geralmente me sentiria mais confortável fazendo isso se adicionasse alguma contribuição original. Mas eu vou manter isso em mente.
mkt - Reintegrar Monica