Vamos considerar o problema de classificar o conjunto de dados MNIST.
De acordo com a página MNIST da Yann LeCun , 'Ciresan et al.' obteve uma taxa de erro de 0,23% no conjunto de testes MNIST usando a Rede Neural Convolucional.
Vamos denotar o treinamento MNIST definido como , o teste MNIST definido como , a hipótese final que eles obtiveram usando como e sua taxa de erro no MNIST Test usando como . D t e s t D t r a i n h 1 h 1 E t e s t ( h 1 ) = 0,0023
Do ponto de vista deles, como é um conjunto de testes amostrados aleatoriamente no espaço de entrada, independentemente de , eles podem insistir que o desempenho de erro fora da amostra de sua hipótese final seja delimitada da seguinte forma: Desigualdade de Hoeffding que. h 1 E o u t ( h 1 ) P [ | E o u t ( h 1 ) - E t e s t ( h 1 ) | < £ | ] ≥ 1 - 2 e 2 ϵ 2 N t e s t N t e s t = |
Em outras palavras, pelo menos a probabilidade , E o u t ( h 1 ) ≤ E t e s t ( h 1 ) + √
Vamos considerar outro ponto de vista. Suponha que uma pessoa queira classificar bem o conjunto de testes MNIST. Então ele olhou pela primeira vez na página MNIST da Yann LeCun e encontrou os seguintes resultados obtidos por outras pessoas usando 8 modelos diferentes,
e escolheu seu modelo que apresentou melhor desempenho no conjunto de testes MNIST entre 8 modelos.
Para ele, o processo de aprendizado estava escolhendo uma hipótese que apresentava melhor desempenho no conjunto de testes de um conjunto de hipóteses .
Portanto, o erro no conjunto de testes é um erro 'dentro da amostra' para esse processo de aprendizado, para que ele possa aplicar o VC vinculado a conjuntos de hipóteses finitas da seguinte maneira: desigualdade.
Em outras palavras, pelo menos probabilidade ,
Esse resultado implica que pode haver sobreajuste no conjunto de teste se escolhermos o modelo com melhor desempenho entre vários modelos.
Nesse caso, a pessoa pode escolher , que tem a menor taxa de erro . Como é a melhor hipótese entre os 8 modelos desse conjunto de testes específico , pode haver alguma possibilidade de que seja uma hipótese adaptada no conjunto de testes MNIST.
Assim, essa pessoa pode insistir na seguinte desigualdade.
Conseqüentemente, obtivemos duas desigualdades e .
No entanto, é óbvio que essas duas desigualdades são incompatíveis.
Onde estou fazendo errado? Qual está certo e qual está errado?
Se o último estiver errado, qual é a maneira correta de aplicar o VC vinculado a conjuntos de hipóteses finitas nesse caso?