Qual é a diferença entre Outlier e Anomaly no contexto de aprendizado de máquina. Meu entendimento é que os dois se referem à mesma coisa.
outliers
terminology
anomaly-detection
user3282512
fonte
fonte
Respostas:
Os dois termos são sinônimos de acordo com:
Citações da página 1:
O texto em negrito não faz parte do texto original.
O download grátis do livro em PDF disponível pelo autor está aqui.
fonte
Uma resposta explícita:
Outlier: um valor que você previsivelmente encontra em seus dados que indica que seu modelo não funciona corretamente
Anomalia: um valor que, em todas as probabilidades encontradas em seus dados, indica que seu modelo funciona corretamente
Uma resposta mais séria e menos enigmática:
O conceito de outliers parte da questão da construção de um modelo que faz suposições sobre os dados. Os valores extremos são frequentemente indicadores de que o modelo não descreve os dados adequadamente e, portanto, devemos questionar os resultados do nosso modelo ou a qualidade dos nossos dados.
O conceito de anomalias começa fora do mundo teórico e dentro do mundo aplicado: queremos procurar um comportamento incomum em nossos dados, algumas vezes motivados pelo fato de estarmos interessados em encontrar comportamentos que alguém está tentando ocultar (como um vírus em um computador). o email). O problema é que, como as pessoas estão tentando esconder o que estão fazendo, realmente não sabemos o que procurar. Portanto, pegamos um conjunto de dados "bons" e decidimos que tudo o que encontramos em nosso novo conjunto de dados que não parece "bom" é uma anomalia e vale a pena conferir com mais detalhes. Muitas vezes, procurar anomalias significa procurar discrepâncias em seu novo conjunto de dados. Mas observe que esses valores podem ser muito comuns no seu novo conjunto de dados, apesar de serem raros no seu antigo conjunto de dados!
Em resumo, os dois conceitos são muito semelhantes em termos das estatísticas por trás deles (ou seja, valores incomuns, dado o seu modelo ajustado), mas chegam à ideia de diferentes ângulos. Além disso, quando falamos de discrepantes, normalmente queremos dizer um ponto de dados incomum nos dados usados para ajustar nosso modelo , onde, como anomalia, normalmente significa um ponto de dados incomum em um conjunto de dados fora dos dados usados para ajustar nosso modelo .
Nota: esta resposta é baseada em como eu vi os dois termos frequentemente usados, em vez de definições formais. As experiências do usuário podem ser diferentes.
fonte
Uma anomalia é um resultado que não pode ser explicado dada a distribuição base (uma impossibilidade se nossas suposições estiverem corretas). Um outlier é um evento improvável, dada a distribuição básica (uma improbabilidade).
fonte
Os termos são amplamente utilizados de maneira intercambiável. "Outlier" refere-se a algo que está fora da norma - portanto, é "anômalo". Mas tenho a impressão de que "outlier" geralmente é usado para observações muito raras . Nas estatísticas, em uma distribuição normal, você consideraria três sigma como outliers. Ou seja, 99,7% dos seus objetos devem ser "normais". "Anomalia" é usada muito mais liberalmente. Se de repente você tem milhões de visitantes em seu site, esses não são visitantes raros. O aumento repentino de visitantes, no entanto, ainda é "anômalo", enquanto cada visitante individual não é um "discrepante".
Pode ter sido neste artigo que vi essas diferenças discutidas, mas não posso acessá-las agora, infelizmente.
fonte
Apenas para enlamear ainda mais as águas, na anomalia climatológica apenas implica a diferença entre valor e média, ou um desvio:
veja por exemplo
Isso pode muito bem ser considerado como aprendizado de máquina externo, mas as pessoas interessadas na questão podem estar interessadas nisso.
fonte
Uma anomalia pode ser um ponto de dados, ou também uma tendência geral ou comportamento observado nos dados depois que um modelo já foi construído ou uma compreensão do processo de geração de dados formado. Você enfrenta anomalias porque o sistema começa a se comportar de maneira diferente ou procura esses pontos de dados, porque deseja ser informado quando ocorrer um evento durante o qual seu modelo não é válido. Você pode se preocupar em observar qualquer comportamento anômalo nas amplitudes das ondas do oceano, não porque deseja jogar fora esses pontos de dados e criar um modelo melhor, mas porque deseja estar ciente de quando um tsunami pode estar acontecendo.
fonte
Boa pergunta. No entanto, a pesquisa do Google em "diferença entre outliers e site de anomalias: .edu" mostra que não há diferença teórica entre esses dois termos. Eles estão sendo usados de forma intercambiável na literatura.
fonte