No aprendizado computacional, o teorema da NFL afirma que não existe um aprendiz universal. Para todo algoritmo de aprendizado, existe uma distribuição que causa ao aluno uma hipotese com um grande erro, com alta probabilidade (embora exista um baixo índice de erro). A conclusão é que, para aprender, a classe de hipoteses ou as distribuições devem ser restritas. Em seu livro "Uma teoria probabilística do reconhecimento de padrões", Devroye et al. Provam o seguinte theroem para o aluno mais próximo de K:
OndeAssume μ has a density. if k→∞ and k/n→0 then for every ϵ>0, there's N, s.t. for all n>N:P(Rn−R∗>ϵ)<2exp(−Cdnϵ2)
R∗é o erro da regra de bayes ideal, é o erro verdadeiro da saída K-NN (a probabilidade está acima do conjunto de treinamento de tamanho ), é a medida de probabilidade no espaço da instância e é uma constante depende apenas da dimensão euclidiana. Portanto, podemos chegar o mais perto possível da melhor hipótese (não a melhor em uma classe restrita), sem assumir nenhuma suposição sobre a distribuição. Então, eu estou tentando entender como esse resultado não contradiz o theroem da NFL? obrigado!RnnμRdCd