Teorema Sem Almoço Grátis e consistência K-NN

10

No aprendizado computacional, o teorema da NFL afirma que não existe um aprendiz universal. Para todo algoritmo de aprendizado, existe uma distribuição que causa ao aluno uma hipotese com um grande erro, com alta probabilidade (embora exista um baixo índice de erro). A conclusão é que, para aprender, a classe de hipoteses ou as distribuições devem ser restritas. Em seu livro "Uma teoria probabilística do reconhecimento de padrões", Devroye et al. Provam o seguinte theroem para o aluno mais próximo de K: Onde

Assume μ has a density. if k and k/n0 then for every ϵ>0, there's N, s.t. for all n>N:P(RnR>ϵ)<2exp(Cdnϵ2)
Ré o erro da regra de bayes ideal, é o erro verdadeiro da saída K-NN (a probabilidade está acima do conjunto de treinamento de tamanho ), é a medida de probabilidade no espaço da instância e é uma constante depende apenas da dimensão euclidiana. Portanto, podemos chegar o mais perto possível da melhor hipótese (não a melhor em uma classe restrita), sem assumir nenhuma suposição sobre a distribuição. Então, eu estou tentando entender como esse resultado não contradiz o theroem da NFL? obrigado!RnnμRdCd

michael J
fonte

Respostas:

6

A maneira como entendo o teorema da NFL é que não há algoritmo de aprendizado que seja melhor que o restante em todas as tarefas. No entanto, este não é um teorema no sentido matemático claro de que ele tem uma prova, e sim uma observação empírica.

Semelhante ao que você disse para o kNN, também há o Teorema de Aproximação Universal para Redes Neurais, que afirma que, dada uma rede neural de duas camadas, podemos aproximar qualquer função com qualquer erro arbitrário.

Agora, como isso não quebra a NFL? Basicamente, afirma que você pode resolver qualquer problema concebível com um NN simples de duas camadas. A razão é que, embora teoricamente as NNs possam se aproximar de qualquer coisa, na prática é muito difícil ensiná-las a se aproximarem de qualquer coisa. É por isso que, para algumas tarefas, outros algoritmos são preferíveis.

Uma maneira mais prática de interpretar a NFL é a seguinte:

Não há como determinar a priori qual algoritmo será o melhor para uma determinada tarefa.

CaucM
fonte
3
Obrigado pela resposta, mas existem algumas imprecisões. Primeiro, o teorema da NFL tem uma prova (por exemplo, shalev-shwartz e ben-david, entendendo o aprendizado de máquina, capítulo 5). Para o Teorema da Aproximação Universal - esse teorema lida com a expressividade, enquanto o teorema da NFL lida com a generalização.
Michael J