O PCA robusto (desenvolvido por Candes et al 2009 ou melhor ainda por Netrepalli et al 2014 ) é um método popular para detecção multivariada de outlier , mas a distância de Mahalanobis também pode ser usada para detecção de outlier, dada uma estimativa robusta e regularizada da matriz de covariância . Estou curioso sobre as (des) vantagens de usar um método sobre o outro.
Minha intuição me diz que a maior distinção entre os dois é a seguinte: Quando o conjunto de dados é "pequeno" (no sentido estatístico), o PCA robusto fornecerá uma covariância de nível inferior, enquanto a estimativa robusta da matriz de covariância fornecerá uma descrição completa. covariância de classificação devido à regularização de Ledoit-Wolf. Como isso afeta a detecção de outlier?
fonte
Respostas:
Este artigo compara alguns métodos nessa área. Eles se referem à abordagem de PCA robusta à qual você vinculou como "PCP" (busca de componentes principais) e à família de métodos aos quais você vinculou para estimativa robusta de covariância como estimadores-M.
Eles argumentam que
e mostre que o PCP (também conhecido como PCA robusto) pode falhar na detecção de outlier em alguns casos.
Eles também falam sobre três tipos de "inimigos da recuperação do subespaço", ou seja, diferentes tipos de outliers e quais tipos de métodos podem ser úteis para lidar com cada um. Comparar seus próprios discrepantes com os três tipos de "inimigos" discutidos aqui pode ajudá-lo a escolher uma abordagem.
fonte