Tenho algumas perguntas rápidas sobre o PCA:
- O PCA assume que o conjunto de dados é gaussiano?
- O que acontece quando aplico um PCA a dados inerentemente não lineares?
Dado um conjunto de dados, o processo deve primeiro normalizar a média, definir a variação para 1, obter um SVD, reduzir a classificação e finalmente mapear o conjunto de dados para o novo espaço de classificação reduzida. No novo espaço, cada dimensão corresponde a uma "direção" de variação máxima.
- Mas a correlação desse conjunto de dados no novo espaço sempre é zero ou isso é verdade apenas para dados que são inerentemente gaussianos?
Suponha que eu tenha dois conjuntos de dados, "A" e "B", onde "A" corresponde a pontos amostrados aleatoriamente retirados de um gaussiano, enquanto "B" corresponde a pontos amostrados aleatoriamente de outra distribuição (digamos Poisson).
- Como o PCA (A) se compara ao PCA (B)?
- Observando os pontos no novo espaço, como eu determinaria que o PCA (A) corresponde aos pontos amostrados de um gaussiano, enquanto o PCA (B) corresponde aos pontos amostrados de um Poisson?
- A correlação dos pontos em "A" é 0?
- A correlação de pontos em "B" também é 0?
- Mais importante, estou fazendo a pergunta "certa"?
- Devo examinar a correlação ou há outra métrica que devo considerar?
Respostas:
Você já tem algumas boas respostas aqui (+1 a ambos @ Cam.Davidson.Pilon e @MichaelChernick). Permitam-me destacar alguns pontos que me ajudam a pensar sobre esse assunto.
Primeiro, o PCA opera sobre a matriz de correlação. Assim, parece-me que a pergunta importante é se faz sentido usar uma matriz de correlação para ajudá-lo a pensar em seus dados. Por exemplo, a correlação produto-momento de Pearson avalia a relação linear entre duas variáveis; se suas variáveis estão relacionadas, mas não linearmente, a correlação não é uma métrica ideal para indexar a força do relacionamento. ( Aqui está uma boa discussão no currículo sobre correlação e dados não normais.)
Segundo, acho que a maneira mais fácil de entender o que está acontecendo com o PCA é simplesmente girar seus eixos. Você pode fazer mais coisas, é claro, e infelizmente o PCA se confunde com a análise fatorial (que definitivamente tem mais acontecendo). No entanto, o PCA antigo simples, sem sinos e assobios, pode ser pensado da seguinte forma:
Essa não é uma metáfora perfeita para o PCA (por exemplo, não redimensionamos as variações para 1). Mas dá às pessoas a idéia básica. A questão agora é usar essa imagem para pensar em como seria o resultado se os dados não fossem gaussianos; isso ajudará você a decidir se vale a pena fazer esse processo. Espero que ajude.
fonte
Posso dar uma solução parcial e mostrar uma resposta para o seuw1 w2 Xw1 Xw2 X
segundo parágrafoterceira questão, relativa à correlação entre os novos dados. A resposta curta é não, os dados no novo espaço não estão correlacionados. Para ver, considere e w 2 como dois componentes principais únicos. Então X W 1 e X W 2 são duas dimensões no novo espaço dos dados, X .fonte
Não há linearidade ou normalidade assumida no PCA. A idéia é apenas decompor a variação de um conjunto de dados p-dimensional em componentes ortogonais ordenados de acordo com a quantidade de variação explicada.
fonte
Lendo a página 7 aqui:
http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
eles observam que o PCA assume que a distribuição do que quer que esteja explicando pode ser descrita apenas por uma média (de zero) e variância, que eles dizem que só pode ser a distribuição Normal.
(Basicamente, além da resposta de Cam, mas não tenho reputação suficiente para comentar:)
fonte
Tanto quanto eu sei, o PCA não assume a normalidade dos dados. Mas se for normalmente distribuído (em um sentido mais geral, simetricamente distribuído), o resultado será mais robusto. Como outras pessoas dizem, a chave é que o PCA é baseado na matriz do coeficiente de correlação de Pearson, cuja estimativa é afetada por valores discrepantes e distribuição distorcida. Portanto, em algumas análises envolvidas, como teste estatístico ou valor-p, você deve se preocupar mais com a satisfação da normalidade; mas em outras aplicações, como análise exploratória, você pode usá-lo, mas só tome cuidado ao fazer interpretações.
fonte
Concordou com outras pessoas que disseram que os dados devem ser "normalmente" distribuídos. Qualquer distribuição se sobrepõe a uma distribuição normal se você a transformar. Se sua distribuição não for normal, os resultados que você obterá serão inferiores em comparação ao caso em que é normal, conforme declarado por alguns aqui ...
Se você ler a referência na primeira resposta, na seção Apêndice, afirma que a suposição é uma distribuição Normal.
fonte