Dificuldade de "aprender" casos raros

Existe algum resultado mostrando que os modelos (por exemplo, SVM, Neural-Net, kNN, etc) terão dificuldade em aprender instâncias "raras" / fenômenos da cauda?

machine-learning lg.learning pac-learning Daniel
fonte

Acho que você aceitou uma resposta muito rapidamente - é uma boa resposta, mas também pode haver outras possibilidades.

usul

@usul obrigado pelo comentário. Você tem mais alguma sugestão? Ficaria feliz em ouvir pensamentos adicionais.

Daniel

Respostas:

No modelo clássico de aprendizado do PAC (ou seja, classificação), instâncias raras não são um problema. Isso ocorre porque se supõe que os pontos de teste do aluno venham da mesma distribuição que os dados de treinamento. Assim, se uma região do espaço é tão escassa que é mal representada na amostra de treinamento, sua probabilidade de aparecer durante a fase de teste é baixa.

Você precisará de um modelo de aprendizado diferente, que analise explicitamente erros do tipo I e tipo II, ou talvez alguma pontuação combinada de recall de precisão. Aqui, novamente, não acho que haja resultados indicando que uma classe específica de algoritmos seja particularmente inadequada para essa tarefa, mas eu posso estar errado.

O mais próximo que consigo pensar é a sensibilidade a valores discrepantes - o AdaBoost é conhecido por ter essa propriedade, por exemplo.

Aryeh
fonte