Qual é a diferença entre detecção de outlier e detecção de anomalias?

8

Gostaria de saber a diferença em termos de aplicativos (por exemplo, qual é a detecção de fraude no cartão de crédito?) E em termos de técnicas usadas.

Trabalhos de exemplo que definem a tarefa seriam bem-vindos.

Martin Thoma
fonte
você já deu uma olhada nisso? stats.stackexchange.com/questions/189664/… . Parece que a resposta para sua pergunta está lá.
moh
@ Oh, eu já vi isso e acho que as respostas não são muito claras. Por isso, solicitei que aplicativos e técnicas fossem incluídos na resposta à minha pergunta.
Martin Thoma
Especialmente, parece não haver consenso se esses dois termos têm significados diferentes ou não. Vamos ver se esta comunidade encontra um consenso / recursos oficiais.
Martin Thoma

Respostas:

7

Fundamentalmente, não há diferença. Digamos que você tenha dados e deseje criar um modelo deles. Como o nome sugere, modelagem é encontrar um modelo, ou seja, uma representação simplificada de seus dados. Por sua vez, podemos ver o modelo como um processo subjacente que gerou seus dados em primeiro lugar, além de algum ruído. Desse ponto de vista, os dados que você vê foram gerados pelo modelo - e podemos dizer que alguns dos pontos que você vê têm menos probabilidade de terem sido gerados pelo seu modelo do que outros.

Por exemplo, se você criar um modelo de regressão linear, é muito provável que os pontos distantes da linha de regressão tenham sido gerados pelo modelo. É o que as pessoas querem dizer quando falam sobre "resíduos" na linguagem estatística normal. Também é chamado de probabilidade dos dados.

Os pontos de dados com baixa probabilidade, de acordo com o modelo que você criou, são anomalias ou discrepâncias. Do ponto de vista da construção de modelos, eles são a mesma coisa.

Coloquialmente, as pessoas usam o termo 'outlier' para significar "algo que devo remover do conjunto de dados para que ele não distorça meu modelo que estou construindo", geralmente porque eles têm um pressentimento de que há algo errado nesses dados e no O modelo que eles desejam criar não deve ser responsável por isso. Um discrepante é frequentemente considerado um obstáculo à construção de um modelo que descreva os dados de maneira geral - simplesmente porque o modelo também tentará explicar o discrepante, o que não é o que o profissional deseja.

Por outro lado, você pode usar o fato de que um modelo também atribui uma probabilidade a cada ponto de dados para sua vantagem - pode criar um modelo que descreva uma tendência mais simples nos dados e, em seguida, procurar ativamente por valores novos ou existentes que tenham muito probabilidade baixa. É isso que as pessoas querem dizer quando dizem 'anomalias'. Se seu objetivo é detectar anomalias, especialmente em novos dados, isso é ótimo. Outlier de uma pessoa é anomalia de outra pessoa!

tom
fonte
7

(Na verdade, eu queria escrever isso como resposta à pergunta Cross Validated: Diferença entre anomalia e Outlier , mas a pergunta está protegida - acho que respondê-la aqui deve estar bem, apesar da menor visibilidade)

As pessoas às vezes argumentam que não há diferença entre um outlier e uma anomalia citando Charu Aggarwal, autor do "Análise Outlier" Book - particularmente, esta declaração:

Os outliers também são referidos como anormalidades , discordantes , desvios ou anomalias na literatura de mineração de dados e estatística.

(Fonte: "Outlier Analysis" (Springer), Charu Aggarwal, 2017, http://charuaggarwal.net/outlierbook.pdf )

No entanto, essa afirmação não implica que discrepâncias e anomalias sejam a mesma coisa - analogamente, dizer que "os cães às vezes são chamados de animais" não significa que eles sejam a mesma coisa.

É difícil dar uma definição formal dos termos. A página da Wikipedia sobre outliers refere-se à página da Wikipedia sobre detecção de anomalias e vice-versa, e ambas contêm muitas definições e interpretações possíveis dos termos. As coisas estão piorando devido às definições e coloquialidades específicas do domínio , onde parece ser suficiente quando duas pessoas do mesmo campo sabem aproximadamente do que a outra está falando ...

No entanto, Varun Chandola tenta dar um significado mais preciso ao termo "anomalia" em sua pesquisa de detecção de anomalias. Particularmente, ele classifica as anomalias em três categorias:

  • Anomalias de pontos: uma instância de dados individual pode ser considerada anômala em relação ao restante dos dados
  • Anomalias contextuais: se uma instância de dados for anômala em um contexto específico (mas não de outra forma)
  • Anomalias coletivas: se uma coleção de instâncias de dados relacionadas for anômala em relação a todo o conjunto de dados

(Resumido de "Anomaly Detection - A Survey", Varun Chandola et al., ACM Computing Surveys 2009, http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )


Aqui, o termo "anomalia de ponto" parece ser o mais próximo do que consideraria uma possível definição da palavra "outlier". E isso está de acordo com a afirmação de Aggarwal: Um discrepante é uma anomalia. Mas nem toda anomalia é estranha.

(O último pode depender da definição da palavra outlier. É claro que se pode defini-la em um nível meta e dizer que um outlier é o que um determinado algoritmo (ou modelo) de detecção de outlier detecta como tal. Mas a maioria das definições que Eu encontrei até agora são baseados em algum tipo de "distância", "dissimilaridade" ou "diferença" de uma "maioria" de outros elementos de dados. Isso parece razoável ...)

Um exemplo: pode haver vários pontos de dados:

14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

Pode-se calcular a média e o desvio padrão e será difícil argumentar por que um desses pontos deve ser "discrepante".

Para uma sequência de pontos de dados como este

14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

identificar "o que está fora de linha" deve ser fácil.

No entanto, assumindo que a primeira sequência descreve, por exemplo, temperaturas externas médias diárias, o fato de que exatamente a mesma temperatura média de 14.4graus foi medida por uma semana inteira certamente poderia ser considerado uma "anomalia".

(Provavelmente uma "anomalia coletiva" de acordo com as definições acima, mas não discutirei sobre isso ...)


Embora eu esteja no gelo ao discutir sobre o significado preciso ou intuitivo de certos termos (porque eu não sou um especialista em ciência de dados nem um falante nativo de inglês), isso significaria que "anomalia" é um termo muito mais amplo que "outlier" " Mas talvez a comunidade de ciência de dados esteja apenas no processo de definir definições adequadas desses termos.

Atualizar:

Talvez meu pressentimento sobre o significado literal de certas palavras esteja errado. Mas para mim, a palavra "outlier" parece dizer "em algum lugar fora (ou longe) de algo (com base em alguma medida de distância)". Nesse sentido, os 14.4s no primeiro exemplo não são "discrepantes" em si. Mas, é claro, as coisas se tornam complicadas muito rapidamente aqui: pode-se imaginar um modelo para os dados que contém o número de dias consecutivos com temperaturas iguais (como na codificação da duração da execução ). A computação desse modelo para os dados fornecidos produziria

1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6

onde o valor 7 não tem grande distância (diferença) para os outros valores no modelo. Portanto, a "anomalia coletiva" de 7 dias consecutivos com temperaturas iguais foi transformada em "anomalia pontual" por essa transformação.

Marco13
fonte
Muito informativo. O que nos impede de usar "outliers pontuais", "outliers contextuais" e "outliers coletivos"? Eu acho que nada está forçando uma distinção.
Esmailian 6/03/19
@ Esmailian Acho que a distinção entre "outlier" e "anomaly" pode fazer sentido. Mas dar uma definição precisa de cada um desses termos que seja aplicável em todos os contextos pode ser difícil (ou talvez impossível). Eu adicionei uma pequena atualização apontando o que minha interpretação / definição da palavra "outlier" é, e quão difícil pode ser a aplicação de uma tal definição rigorosamente ...
Marco13
O problema disso é que é uma interpretação subjetiva. Se você pudesse sublinhar a diferença com citações exatas, seria muito mais útil.
Code Pope
@CodePope A que exatamente isso se refere? Acrescentei quatro "citações", a propósito, mas ressaltei que mesmo as definições mais amplamente usadas são vagas e às vezes até contradizem umas às outras.
Marco13
Obviamente, você adicionou quatro citações, mas nenhuma delas diz que há uma diferença entre outlier e anomalia ou que outlier é um subelemento de anomalia. Além disso, nenhuma das suas citações e qualquer outro artigo que eu li concorda com a sua interpretação de que os valores extremos são anomalias pontuais. É a intuição comum de que os discrepantes são pontos únicos, mas não é isso que as definições formais implicam. Como exemplo: "Uma observação (ou subconjunto de observações) que parece ser inconsistente com o restante desse conjunto de dados". (Barnet e Lewis - 1994)
Code Pope
0

Um outlier é um ponto de dados fora do comum, relativamente.

Uma anomalia é um caso especial de outliers, eles podem ter informações ou razões especiais / úteis.

jatin gupta
fonte