Eu sou novo na Independent Component Analysis (ICA) e tenho apenas uma compreensão rudimentar do método. Parece-me que a ACI é semelhante à Análise Fatorial (FA), com uma exceção: a ACI assume que as variáveis aleatórias observadas são uma combinação linear de componentes / fatores independentes que não são gaussianos, enquanto o modelo clássico da FA assume que as variáveis aleatórias observadas são uma combinação linear de componentes / fatores gaussianos correlacionados.
O acima é preciso?
multivariate-analysis
factor-analysis
ica
stats_student
fonte
fonte
Respostas:
FA, PCA e ICA são todos 'relacionados', na medida em que os três buscam vetores de base nos quais os dados são projetados, de forma que você maximize os critérios de inserção aqui. Pense nos vetores básicos como apenas encapsulando combinações lineares.
Então, quais são esses critérios?
Critérios de Segunda Ordem:
No PCA, você encontra vetores de base que 'melhor explicam' a variação de seus dados. O primeiro vetor base (ou seja, com a classificação mais alta) será aquele que melhor se ajusta a toda variação dos seus dados. O segundo também possui esse critério, mas deve ser ortogonal ao primeiro e assim por diante. (Acontece que esses vetores de base para o PCA nada mais são do que os vetores próprios da matriz de covariância de seus dados).
Na FA, há diferença entre ela e o PCA, porque o FA é generativo, enquanto o PCA não. Vi a FA como sendo descrita como 'PCA com ruído', onde o 'ruído' é chamado de 'fatores específicos'. Mesmo assim, a conclusão geral é que PCA e FA são baseados em estatísticas de segunda ordem (covariância) e nada acima.
Critérios de ordem superior:
No ICA, você está novamente encontrando vetores de base, mas desta vez deseja vetores de base que resultem, de modo que esse vetor resultante seja um dos componentes independentes dos dados originais. Você pode fazer isso maximizando o valor absoluto da curtose normalizada - uma estatística de quarta ordem. Ou seja, você projeta seus dados em algum vetor base e mede a curtose do resultado. Você muda um pouco o vetor base (geralmente através da subida gradiente) e depois mede a curtose novamente, etc. etc. Eventualmente, você se depara com um vetor base que fornece um resultado com a maior curtose possível, e este é o seu método independente. componente.
O diagrama superior acima pode ajudá-lo a visualizá-lo. Você pode ver claramente como os vetores ICA correspondem aos eixos dos dados (independentes um do outro), enquanto os vetores PCA tentam encontrar direções nas quais a variação é maximizada. (Um pouco como resultante).
Se no diagrama superior os vetores PCA parecem quase corresponder aos vetores ICA, isso é apenas coincidência. Aqui está outra instância em diferentes dados e matriz de mistura, onde eles são muito diferentes. ;-)
fonte
Não é bem assim. A análise fatorial opera com os segundos momentos e realmente espera que os dados sejam gaussianos, para que as proporções de probabilidade e coisas assim não sejam afetadas pela não normalidade. A ICA, por outro lado, é motivada pela idéia de que, quando você adiciona coisas, obtém algo normal, devido ao CLT, e realmente espera que os dados não sejam normais, para que os componentes não normais possam ser extraídos de eles. Para explorar a não normalidade, a ACI tenta maximizar o quarto momento de uma combinação linear das entradas:
De qualquer forma, a ACI deve ser comparada à PCA, que maximiza o segundo momento (variação) de uma combinação padronizada de entradas.
fonte