Alguém pode me dizer o que significa a frase "aprendiz fraco"? É suposto ser uma hipótese fraca? Estou confuso sobre a relação entre um aprendiz fraco e um classificador fraco. Os dois são iguais ou há alguma diferença?
No algoritmo adaboost T=10
,. O que isso significa? Por que nós selecionamos T=10
?
classification
svm
terminology
adaboost
pac-learning
vrushali
fonte
fonte
Respostas:
Um aluno 'fraco' (classificador, preditor etc.) é apenas aquele que apresenta desempenho relativamente fraco - sua precisão está acima do acaso, mas apenas por pouco. Existe frequentemente, mas nem sempre, a implicação adicional de que é computacionalmente simples. O aluno fraco também sugere que muitas instâncias do algoritmo estão sendo agrupadas (por meio de reforço, empacotamento etc.) para criar um classificador de conjunto "forte".
É mencionado no artigo original do AdaBoost de Freund & Schapire:
mas acho que a frase é realmente mais antiga que isso - já vi pessoas citarem um artigo (?!) de Michael Kearns, da década de 1980.
O exemplo clássico de um aprendiz fraco é um coto de decisão, uma árvore de decisão de um nível (1R ou OneR é outro aprendiz fraco comumente usado; é bastante semelhante). Seria um pouco estranho chamar um SVM de 'aprendiz fraco', mesmo em situações em que ele tenha um desempenho ruim, mas seria perfeitamente razoável chamar uma única decisão de coto de aprendiz fraco, mesmo quando o desempenho fosse surpreendentemente bom por si só.
O Adaboost é um algoritmo iterativo e
Não sei se há algo mágico sobreT= 10 . In the 1995 paper, T is given as a free parameter (i.e., you set it yourself).
fonte
Weak learner is a learner that no matter what the distribution over the training data is will always do better than chance, when it tries to label the data. Doing better than chance means we are always going to have an error rate which is less than 1/2.
This means that the learner algorithm is always going to learn something, not always completely accurate i.e., it is weak and poor when it comes to learning the relationships betweenX (inputs) and Y (target).
But then comes boosting, in which we start by looking over the training data and generate some distributions, then find some set of Weak Learners (classifiers) with low errors, and each learner outputs some hypothesis,Hx . This generates some Y (class label), and at the end combines the set of good hypotheses to generate a final hypothesis.
This eventually improves the weak learners and converts them to strong learners.
For more information: https://youtu.be/zUXJb1hdU0k.
fonte
Weak learner is the same as weak classifier, or weak predictor. The idea is that you use a classifier that is, well..., not that good, but at least better than random. The benefit is that the classifier will be robust in overfitting. Of course you don't use just one but a large set of those, each one slightly better than random. The exact way you select/combine them depends on the methodology/algorithm, e.g. AdaBoost.
In practice as weak classifier you use something like a simple threshold on a single feature. If feature is above the threshold then you predict it belongs to the positives otherwise you decide it belongs to the negatives. Not sure about the T=10, since there is no context, but I can assume it is an example on thresholding some feature.
fonte