A navalha de Occam está obsoleta?

Vi os livros de Vapnik sobre aprendizado estatístico ... Li os primeiros capítulos. De qualquer forma, o que mais me surpreendeu foi o fato de ele pensar que a navalha da Occam era obsoleta.

Eu pensei que estava relacionado à situação em que assumir uma dimensão maior melhora o ajuste significativamente.

Eu entendi certo? É correto que a navalha de Occam não esteja mais certa, como Vapnik disse?

Existe algum argumento de que a lâmina de Occam não deva ser considerada o padrão?

As frases exatas vêm do Prefácio da Segunda Edição da Natureza da Aprendizagem Estatística , que são:

Os anos desde a primeira edição do livro também mudaram a filosofia geral em nossa compreensão da natureza do problema da indução. Depois de muitas experiências bem-sucedidas com SVM, os pesquisadores se tornaram mais determinados nas críticas à filosofia clássica de generalização baseada no princípio da navalha de Occam ".

Eu gostaria que alguém pudesse elaborar as críticas à navalha de Occam.

machine-learning svm KH Kim
fonte

Pode não estar relacionado. Leia sobre Simplicidade não implica precisão, em Algumas Coisas Úteis para Saber sobre o Aprendizado de Máquina, por Domingos.

Simone

Pode ser útil se você fornecer uma referência de página, para que o comentário do Vapnik possa ser visto no contexto.

Dikran Marsupial

Adicionei o trecho da segunda edição da Natureza do aprendizado estatístico à pergunta.

KH Kim

Respostas:

Depende do que você considera a "navalha de Occam"; a formulação original é um mumbo-jumbo teológico pouco claro, por isso floresceu em várias interpretações (muitas vezes incompatíveis).

Vapnik critica a versão ultranaiva dizendo mais menos que um modelo com menor número de parâmetros ajustados é melhor porque muitos parâmetros implicam super ajuste, ou seja, algo na melodia do paradoxo de Runge .
É claro que é falso no aprendizado de máquina porque a "ganância do ajuste" não é restringida pelos parâmetros numéricos, mas (por meio de alguma heurística) pela precisão do modelo nos dados futuros.

Mas isso significa que o treinamento em BC está introduzindo pluralidade sem necessidade? Pessoalmente, eu diria que não, principalmente devido à segunda parte - os modelos ML são geralmente melhores do que as regressões clássicas feitas à mão, então essa complexidade extra compensa. Mesmo que possa ser reduzido por um ser humano a uma teoria mais simples, isso quase sempre custa um preço de suposições extras, portanto não é uma comparação justa.

fonte