PCA robusto vs. distância de Mahalanobis robusta para detecção de valores extremos

17

O PCA robusto (desenvolvido por Candes et al 2009 ou melhor ainda por Netrepalli et al 2014 ) é um método popular para detecção multivariada de outlier , mas a distância de Mahalanobis também pode ser usada para detecção de outlier, dada uma estimativa robusta e regularizada da matriz de covariância . Estou curioso sobre as (des) vantagens de usar um método sobre o outro.

Minha intuição me diz que a maior distinção entre os dois é a seguinte: Quando o conjunto de dados é "pequeno" (no sentido estatístico), o PCA robusto fornecerá uma covariância de nível inferior, enquanto a estimativa robusta da matriz de covariância fornecerá uma descrição completa. covariância de classificação devido à regularização de Ledoit-Wolf. Como isso afeta a detecção de outlier?

Mustafa S Eisa
fonte
Pergunta interessante, mas não consigo ver como uma resposta pode ser motivada sem um caso de uso específico. Você tem "observações grosseiramente corrompidas" ? Você tem dados geralmente barulhentos? Várias implementações de RPCA são essencialmente técnicas robustas de estimativa de covariância (ver Princ. Component Analysis de Jolliffe, Ed. 2ª Ch. 10), onde os PCs são estimados a partir da estimativa regularizada da covariância. Assim, as distinções das duas abordagens mencionadas estão longe de serem claras. Em geral, a detecção automática de outlier é bem-sucedida no contexto de um aplicativo específico.
usεr11852 diz Reinstate Monic
1
O problema dos “dados barulhentos” não é uma detecção externa. Eu acho que o problema de detecção de outlier é restritivo o suficiente por si só para permitir uma comparação geral entre esses dois métodos sem um caso de uso. Esta é uma pergunta sobre metodologia.
Mustafa S Eisa
Talvez eu tenha tentado dizer muito em pouco espaço, desculpe por isso. O que quero chamar a atenção é que as duas abordagens mencionadas não são distintas. Você deve considerar se concentrar mais na comparação entre uma abordagem de busca de projeção (o que você chama de RPCA) e uma abordagem robusta de estimativa de covariância (o que você chama de distâncias de Mahalanobis). A estimativa de covariância robusta em si mesma é uma metodologia perfeitamente válida para implementações de RPCA (por exemplo, google "PCA M-Estimation"). Não mencione também a presença de abordagens de PCA ponderadas que você de alguma forma não menciona no contexto da RPCA.
usεr11852 diz Reinstate Monic
Não há necessidade de desculpas :) Os dois métodos são muito distintos, principalmente em pequenos conjuntos de dados. Uma das maneiras pelas quais são diferentes é mencionada no final da minha pergunta. Embora o PCA (robusto) possa ser visto como um problema de projeção, também pode ser interpretado como um problema de estimativa de covariância, portanto, talvez haja menos distinção no método de estimativa de parâmetros do que na aplicação e desempenho.
Mustafa S Eisa
@ MustafaSEisa / Boa pergunta! Eu acho que isso pode ser respondido com base em métodos metodológicos: na verdade, é uma das minhas irritações. Vou tentar uma resposta provisória o mais rápido possível. Enquanto isso; Penso que uma maneira proveitosa de abordá-lo em termos mais gerais é examinar as conseqüências do uso de modelos com um grupo de invariância aninhado, mas desigual. Como tento fazer aqui em um contexto um pouco diferente.
user603

Respostas:

7

Este artigo compara alguns métodos nessa área. Eles se referem à abordagem de PCA robusta à qual você vinculou como "PCP" (busca de componentes principais) e à família de métodos aos quais você vinculou para estimativa robusta de covariância como estimadores-M.

Eles argumentam que

O PCP é projetado para coordenadas de dados corrompidas uniformemente, em vez de pontos de dados corrompidos (ou seja, outliers); portanto, a comparação com o PCP é um tanto injusta para esse tipo de dados.

e mostre que o PCP (também conhecido como PCA robusto) pode falhar na detecção de outlier em alguns casos.

Eles também falam sobre três tipos de "inimigos da recuperação do subespaço", ou seja, diferentes tipos de outliers e quais tipos de métodos podem ser úteis para lidar com cada um. Comparar seus próprios discrepantes com os três tipos de "inimigos" discutidos aqui pode ajudá-lo a escolher uma abordagem.

David J. Harris
fonte
Obrigado por este David, vou dar uma olhada no jornal. No entanto, existe uma versão do PCA robusto que impõe uma penalidade invariavelmente rotacional no dado (linhas da matriz de dados) em vez de uma penalidade nas coordenadas (como no caso Candes). Pensamentos?
Mustafa S Eisa
Não sei se entendi sua pergunta. Você está me pedindo para comparar as duas abordagens discutidas na sua pergunta com uma abordagem robusta e diferente do PCA?
David J. Harris
Na sua resposta, você distingue entre os dois métodos, apontando que o método 1A penalidade no PCA robusto não é invariavelmente rotacional e, portanto, é mais adequada para corrupções em base canônica. Estou apenas perguntando se você considerou ou pensou sobre o caso em que uma soma de normas de linha (euclidiana) é usada no lugar do1coordenar penalidades.
Mustafa S Eisa
Se sua resposta for "Não", tudo bem, só estou pensando.
Mustafa S Eisa
Ah eu vejo. Esse seria um caso especial da distância de Mahalanobis?
David J. Harris