Quais são as etapas adequadas de pré-processamento para executar a Análise Independente de Componentes?

17

Quais são as etapas apropriadas para pré-processar minhas formas de onda, a fim de executar uma análise de componente independente (ICA) posteriormente? Eu entendo o como, apesar de mais explicações sobre isso não doerem, mas estou mais interessado no porquê.

jonsca
fonte
Não sei por que você precisa de pré-processamento. Existe alguma razão em particular?
Phonon
@Phonon Encontrei investigadores que digitaram seus dados antes de executar a ICA nele. Eu apenas me perguntei se havia um método padrão.
jonsca
Muito interessante. Eu adoraria ver uma resposta construtiva.
Phonon
1
No caso da análise espectral dos sinais de EEG, as pessoas se embranquecem para reduzir o efeito dominante da forma do espectro, que muitas vezes esconde coisas interessantes em altas frequências. Há pelo menos uma pequena discussão sobre isso aqui nos materiais suplementares. Se este é um truque comum antes da ACI em particular, não tenho certeza. O seu aplicativo é sinais EEG / MEG / LFP? Talvez alguém que faça ICA possa dar uma resposta completa, se meu palpite estiver certo. Pergunta interessante - eu vou ler sobre isso. 1/f
ImAlsoGreg
1
@IGigili Isso também faz parte da pergunta. Quais são os passos considerados normais?
jonsca

Respostas:

15

Análise componente independente (ICA) é usado para separar um linear mistura de estatisticamente independentes e o mais importante, não-Gaussiana componentes nos seus constituintes. O modelo padrão para uma ACI sem ruído é

x=As

onde é o vetor de observação ou de dados, s é um sinal de origem / componentes originais (não-Gaussiano) e A é um vetor de transformação que define a mistura linear dos sinais constituintes. Normalmente, A e s são desconhecidos.xsAAs

Pré-processando

Existem duas estratégias principais de pré-processamento na ACI, a saber, centralização e clareamento / esferificação. Os principais motivos do pré-processamento são:

  • Simplificação de algoritmos
  • Redução da dimensionalidade do problema
  • Redução do número de parâmetros a serem estimados.
  • Os recursos de destaque do conjunto de dados não são facilmente explicados pela média e covariância.

Desde a introdução de G. Li e J. Zhang, "Sphering e suas propriedades", The Indian Journal of Statistics, vol. 60, Série A, Parte I, pp. 119-133, 1998:

Valores extremos, aglomerados ou outros tipos de grupos e concentrações próximas a curvas ou superfícies não planas são provavelmente os recursos importantes que interessam aos analistas de dados. Em geral, eles não são obtidos pelo mero conhecimento da média da amostra e da matriz de covariância. Nessas circunstâncias, é desejável separar as informações contidas nas matrizes média e covariância e nos obriga a examinar aspectos de nossos conjuntos de dados que não sejam de natureza bem compreendida. Centrar e esferitar é uma abordagem simples e intuitiva que elimina as informações de covariância média e ajuda a destacar estruturas além da correlação linear e das formas elípticas e, portanto, é frequentemente executada antes de explorar exibições ou análises de conjuntos de dados

1. Centralização:

E{x}xc=xx¯x¯

2. Clareamento:

E{xcxcT}=I

Σ^=C.xcxcT

Cx

xw=Σ^1/2xc

I

s = RandomReal[{-1, 1}, {2000, 2}];
A = {{2, 3}, {4, 2}};
x = s.A;
whiteningMatrix = Inverse@CholeskyDecomposition[[email protected]/Length@x];
y = x.whiteningMatrix;
FullGraphics@GraphicsRow[
  ListPlot[#, AspectRatio -> 1, Frame -> True] & /@ {s, x, y}]

insira a descrição da imagem aqui

sA

xw=AwswAw

E{xwxwT}=E{Awsw(Awsw)T}=AwE{swswT}AwT=AwAwT=I

siA

Se, após a transformação, houver valores próprios próximos de zero, eles poderão ser descartados com segurança, pois são apenas ruídos e dificultam a estimativa devido ao "superaprendizado".

3. Outro pré-processamento

Pode haver outras etapas de pré-processamento envolvidas em certos aplicativos específicos que são impossíveis de abordar em uma resposta. Por exemplo, eu vi alguns artigos que usam o log da série cronológica e outros que filtram a série cronológica. Embora possa ser adequado para suas aplicações / condições específicas, os resultados não são transferidos para todos os campos.

Acredito que seja possível usar o ICA se no máximo um dos componentes for gaussiano, embora não encontre uma referência para isso no momento.


Por que é chamado de "sphering"?

nn{-1,1}NormalDistribution[]

insira a descrição da imagem aqui

O primeiro é a densidade articular de dois gaussianos não correlacionados, o segundo em transformação e o terceiro após o clareamento. Na prática, apenas os passos 2 e 3 são visíveis.

Lorem Ipsum
fonte
2
Uau, vai demorar um pouco para entender tudo, mas obrigado é um eufemismo!
jonsca
Desculpe, pensei que já tivesse aceitado.
jonsca