Diferença entre Anomalia e Outlier

13

Qual é a diferença entre Outlier e Anomaly no contexto de aprendizado de máquina. Meu entendimento é que os dois se referem à mesma coisa.

user3282512
fonte
3
Por curiosidade, onde na literatura é feita essa distinção? Fiquei com a impressão de que "outliers" não têm definição formal, além de serem observações de alta alavancagem e alta influência. Influência e fazer têm definições matemáticas, mas considerando algo "alto" é arbitrária. Parece que palavras arbitrárias estão sendo trocadas.
AdamO 07/01
As pessoas que usam a palavra "inlier" implicitamente fazem algum tipo de distinção entre "anomalia" e "outlier", porque um inlier é um tipo de anomalia. Como nem "outlier" nem "anomaly" possuem definições técnicas definidas e comumente entendidas, devemos esperar que essa pergunta tenha várias respostas que diferem (pelo menos um pouco) uma da outra.
whuber

Respostas:

9

Os dois termos são sinônimos de acordo com:

Aggarwal, Charu C. Análise Outlier. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1

Citações da página 1:

Os outliers também são referidos como anormalidades, discordantes, desvios ou anomalias na literatura de mineração de dados e estatística.

O texto em negrito não faz parte do texto original.

O download grátis do livro em PDF disponível pelo autor está aqui.

tomas
fonte
O fato de "outliers" serem referidos como "anomalias" não significa que eles são sinônimos. Por vezes, os "cães" são referidos como "animais". Tentei abordar isso com mais detalhes nesta resposta (não foi possível postar aqui, porque a pergunta está protegida).
Marco13
9

Uma resposta explícita:

Outlier: um valor que você previsivelmente encontra em seus dados que indica que seu modelo não funciona corretamente

Anomalia: um valor que, em todas as probabilidades encontradas em seus dados, indica que seu modelo funciona corretamente

Uma resposta mais séria e menos enigmática:

O conceito de outliers parte da questão da construção de um modelo que faz suposições sobre os dados. Os valores extremos são frequentemente indicadores de que o modelo não descreve os dados adequadamente e, portanto, devemos questionar os resultados do nosso modelo ou a qualidade dos nossos dados.

O conceito de anomalias começa fora do mundo teórico e dentro do mundo aplicado: queremos procurar um comportamento incomum em nossos dados, algumas vezes motivados pelo fato de estarmos interessados ​​em encontrar comportamentos que alguém está tentando ocultar (como um vírus em um computador). o email). O problema é que, como as pessoas estão tentando esconder o que estão fazendo, realmente não sabemos o que procurar. Portanto, pegamos um conjunto de dados "bons" e decidimos que tudo o que encontramos em nosso novo conjunto de dados que não parece "bom" é uma anomalia e vale a pena conferir com mais detalhes. Muitas vezes, procurar anomalias significa procurar discrepâncias em seu novo conjunto de dados. Mas observe que esses valores podem ser muito comuns no seu novo conjunto de dados, apesar de serem raros no seu antigo conjunto de dados!

Em resumo, os dois conceitos são muito semelhantes em termos das estatísticas por trás deles (ou seja, valores incomuns, dado o seu modelo ajustado), mas chegam à ideia de diferentes ângulos. Além disso, quando falamos de discrepantes, normalmente queremos dizer um ponto de dados incomum nos dados usados ​​para ajustar nosso modelo , onde, como anomalia, normalmente significa um ponto de dados incomum em um conjunto de dados fora dos dados usados ​​para ajustar nosso modelo .

Nota: esta resposta é baseada em como eu vi os dois termos frequentemente usados, em vez de definições formais. As experiências do usuário podem ser diferentes.

Cliff AB
fonte
6

Uma anomalia é um resultado que não pode ser explicado dada a distribuição base (uma impossibilidade se nossas suposições estiverem corretas). Um outlier é um evento improvável, dada a distribuição básica (uma improbabilidade).

H. Iqbal
fonte
7
A citação da fonte para as definições e o exemplo melhoraria muito a resposta.
Tim
4
Tanto quanto sei, são sinônimos. Então @H. Iqbal realmente deve citar a fonte e todos os leitores devem então avaliar a authoritativeness de fonte de Sayd
Jacques Wainer
2
Impossibilidade parece implicar P (X = ANOMALIA) = 0 (ou seja, exatamente 0). Meu entendimento sobre a detecção de anomalias é que o pesquisador pode estar interessado em eventos com probabilidade positiva.
Cliff AB
4

Os termos são amplamente utilizados de maneira intercambiável. "Outlier" refere-se a algo que está fora da norma - portanto, é "anômalo". Mas tenho a impressão de que "outlier" geralmente é usado para observações muito raras . Nas estatísticas, em uma distribuição normal, você consideraria três sigma como outliers. Ou seja, 99,7% dos seus objetos devem ser "normais". "Anomalia" é usada muito mais liberalmente. Se de repente você tem milhões de visitantes em seu site, esses não são visitantes raros. O aumento repentino de visitantes, no entanto, ainda é "anômalo", enquanto cada visitante individual não é um "discrepante".

Pode ter sido neste artigo que vi essas diferenças discutidas, mas não posso acessá-las agora, infelizmente.

Análise Estatística e Mineração de Dados, Volume 5, Edição 5, Outubro de 2012, Páginas 363–387 Uma pesquisa sobre detecção externa não supervisionada em dados numéricos de alta dimensão

Possui QUIT - Anony-Mousse
fonte
1
Eu acho que você sutilmente sugeriu a diferença entre discrepâncias e anomalias; outliers são usados ​​para descrever dados que não se encaixam em uma tendência geral, anomalias descrevem tráfego incomum em um servidor. 50% jk.
Cliff AB
2

Apenas para enlamear ainda mais as águas, na anomalia climatológica apenas implica a diferença entre valor e média, ou um desvio:

O termo anomalia de temperatura significa um desvio de um valor de referência ou média de longo prazo. Uma anomalia positiva indica que a temperatura observada foi mais quente que o valor de referência, enquanto uma anomalia negativa indica que a temperatura observada foi mais baixa que o valor de referência.

veja por exemplo

Isso pode muito bem ser considerado como aprendizado de máquina externo, mas as pessoas interessadas na questão podem estar interessadas nisso.

Nick Cox
fonte
1

(1,5)y=x(1,1)(5,5)(3,3.1.)y=x

Uma anomalia pode ser um ponto de dados, ou também uma tendência geral ou comportamento observado nos dados depois que um modelo já foi construído ou uma compreensão do processo de geração de dados formado. Você enfrenta anomalias porque o sistema começa a se comportar de maneira diferente ou procura esses pontos de dados, porque deseja ser informado quando ocorrer um evento durante o qual seu modelo não é válido. Você pode se preocupar em observar qualquer comportamento anômalo nas amplitudes das ondas do oceano, não porque deseja jogar fora esses pontos de dados e criar um modelo melhor, mas porque deseja estar ciente de quando um tsunami pode estar acontecendo.

Semihcan Doken
fonte
2
Eu discordo da maior parte disso. Primeiro, a primeira frase pode ser sua definição de outlier, se você preferir, mas é difícil conciliar com muitas outras definições ou usos. Se os dados são (1, 1), (2, 2), (3, 3), (muito maiores, muito maiores), o ponto muito maior seria frequentemente descrito como um erro externo, mas não há problema em ajustar um modelo. Você pode (e deve) se perguntar por que os dados são assim, mas é fácil ajustar um modelo. De maneira mais geral, o princípio é que um discrepante pode ser separado do corpo principal dos dados, mas ainda consistente com um modelo plausível.
Nick Cox
Segundo, se a implicação de que a omissão de discrepâncias é exatamente o que você deve fazer, (a) muitas vezes é problemático até dizer quais são as discrepâncias (b) existem muitas outras soluções. O segmento stats.stackexchange.com/questions/78063/… varia mais amplamente que o título, para mencionar vários.
Nick Cox
1
Se você seguir o meu link, verá que eu já publiquei alguns detalhes em outliers. Não tenho nenhum sentido em reler a sua resposta que você está pensando retrospectivamente, pois parece estar falando sobre a remoção de valores extremos enquanto ajusta. Ao reler, também observo que a primeira frase do seu segundo parágrafo inclui a ideia de que uma anomalia pode ser "uma tendência ou comportamento geral", que é improvável que seja o que você quer dizer - ou, se for, não o faço. não entendo isso.
Nick Cox
1

Boa pergunta. No entanto, a pesquisa do Google em "diferença entre outliers e site de anomalias: .edu" mostra que não há diferença teórica entre esses dois termos. Eles estão sendo usados ​​de forma intercambiável na literatura.

Chandra
fonte