PCA é para CCA como para ICA?

O PCA procura fatores nos dados que maximizam a variação explicada. A análise de correlação canônica (CCA), até onde eu entendo, é como um PCA, mas procura por fatores que maximizem a covariância cruzada entre dois conjuntos de dados. Portanto, encontre fatores semelhantes ao pca, comuns a dois conjuntos de dados.

A análise de componentes independentes (ICA) é semelhante à PCA, mas procura fatores que são estatisticamente independentes. O que resulta em, de alguma maneira, fatores mais interpretáveis. Por exemplo, vias genéticas, redes cerebrais, partes de rostos. Ou você pode dizer que identificaria fontes independentes que são misturadas para produzir os dados.

Existe um método semelhante ao ICA, como o PCA é o CCA? Então, isso encontraria componentes independentes comuns a dois conjuntos de dados? Os resultados realmente fariam sentido?

pca canonical-correlation ica rep_ho
fonte

PCA vs CCA é explicado, por exemplo, aqui stats.stackexchange.com/q/65692/3277 . Não acho razoável o que a CCA dá para chamar de "fatores".

precisa saber é o seguinte

Respostas:

A primeira etapa do ICA é usar o PCA e projetar o conjunto de dados em um espaço latente de baixa dimensão. O segundo passo é realizar uma mudança de coordenadas no espaço latente, escolhido para otimizar uma medida de não gaussianidade. Isso tende a levar a coeficientes e cargas que são, se não escassos, pelo menos concentrados em um pequeno número de observações e características, facilitando assim a interpretação.

Da mesma forma, neste artigo sobre CCA + ICA (Sui et al., "Um modelo baseado em CCA + ICA para fusão de dados de imagens cerebrais de múltiplas tarefas e sua aplicação à esquizofrenia"), o primeiro passo (ver nota de rodapé) é executar o CCA, que produz uma projeção de cada conjunto de dados em um espaço de baixa dimensão. Se os conjuntos de dados de entrada forem e , cada um com linhas = observações, o CCA produzirá e onde os também têm linhas = observações. Note-se que o s' tem um pequeno número de colunas, emparelhado entre e , em oposição ao $X_1$ $X_2$ $N$ $Z_1 = X_1W_1$ $Z_2 = X_2W_2$ $Y$ $N$ $Y$ $Y_1$ $Y_2$ $X$ , que pode até não ter o mesmo número de colunas. Os autores então aplicam a mesma estratégia de mudança de coordenada usada na ACI, mas a aplicam à matriz concatenada . $[Z_1 | Z_2]$

Nota de rodapé: os autores também usam etapas de pré-processamento envolvendo PCA, que eu ignoro aqui. Eles fazem parte das opções de análise específicas do domínio do artigo, em vez de serem essenciais para o método CCA + ICA.

eric_kernfeld
fonte