Na teoria da aprendizagem estatística, não há um problema de adaptação excessiva em um conjunto de testes?

16

Vamos considerar o problema de classificar o conjunto de dados MNIST.

De acordo com a página MNIST da Yann LeCun , 'Ciresan et al.' obteve uma taxa de erro de 0,23% no conjunto de testes MNIST usando a Rede Neural Convolucional.

Vamos denotar o treinamento MNIST definido como , o teste MNIST definido como , a hipótese final que eles obtiveram usando como e sua taxa de erro no MNIST Test usando como . D t e s t D t r a i n h 1 h 1 E t e s t ( h 1 ) = 0,0023DtrumaEunDtestDtrumaEunh1 1h1 1Etest(h1 1)=0,0023

Do ponto de vista deles, como é um conjunto de testes amostrados aleatoriamente no espaço de entrada, independentemente de , eles podem insistir que o desempenho de erro fora da amostra de sua hipótese final seja delimitada da seguinte forma: Desigualdade de Hoeffding que. h 1 E o u t ( h 1 ) P [ | E o u t ( h 1 ) - E t e s t ( h 1 ) | < £ | ] 1 - 2 e 2 ϵ 2 N t e s t N t e s t = |Dtesth1 1Eovocêt(h1 1)

P[|Eovocêt(h1 1)-Etest(h1 1)|<ϵ|]1 1-2e2ϵ2Ntest

Ntest=|Dtest|

Em outras palavras, pelo menos a probabilidade , E o u t ( h 1 ) E t e s t ( h 1 ) + 1 1-δ

Eout(h1)Etest(h1)+12Ntestln2δ

Vamos considerar outro ponto de vista. Suponha que uma pessoa queira classificar bem o conjunto de testes MNIST. Então ele olhou pela primeira vez na página MNIST da Yann LeCun e encontrou os seguintes resultados obtidos por outras pessoas usando 8 modelos diferentes,

Resultados da classificação MNIST

e escolheu seu modelo que apresentou melhor desempenho no conjunto de testes MNIST entre 8 modelos.g

Para ele, o processo de aprendizado estava escolhendo uma hipótese g que apresentava melhor desempenho no conjunto de testes Dtest de um conjunto de hipóteses Htrained={h1,h2,..,h8} .

Portanto, o erro no conjunto de testes é um erro 'dentro da amostra' para esse processo de aprendizado, para que ele possa aplicar o VC vinculado a conjuntos de hipóteses finitas da seguinte maneira: desigualdade. Etest(g)

P[|Eout(g)Ein(g)|<ϵ]12|Htrained|e2ϵ2Ntest

Em outras palavras, pelo menos probabilidade , 1δ

Eout(g)Etest(g)+12Ntestln2|Htrained|δ

Esse resultado implica que pode haver sobreajuste no conjunto de teste se escolhermos o modelo com melhor desempenho entre vários modelos.

Nesse caso, a pessoa pode escolher , que tem a menor taxa de erro . Como é a melhor hipótese entre os 8 modelos desse conjunto de testes específico , pode haver alguma possibilidade de que seja uma hipótese adaptada no conjunto de testes MNIST.h1Etest(h1)=0,0023h1 1Dtesth1 1

Assim, essa pessoa pode insistir na seguinte desigualdade.

Eovocêt(h1 1)Etest(h1 1)+1 12Ntesteun2|HtrumaEuned|δ

Conseqüentemente, obtivemos duas desigualdades e .

P[Eovocêt(h1 1)Etest(h1 1)+1 12Ntesteun2δ]1 1-δ
P[Eovocêt(h1 1)Etest(h1 1)+1 12Ntesteun2|HtrumaEuned|δ]1 1-δ

No entanto, é óbvio que essas duas desigualdades são incompatíveis.

Onde estou fazendo errado? Qual está certo e qual está errado?

Se o último estiver errado, qual é a maneira correta de aplicar o VC vinculado a conjuntos de hipóteses finitas nesse caso?

asqdf
fonte

Respostas:

1

Entre essas duas desigualdades, acho que a última está errada. Em resumo, o que está errado aqui é a identidade dado que é uma função dos dados de teste enquanto é um modelo que é independente dos dados de teste.g=h1 1gh1 1

De fato, é um dos 8 modelos em que melhor prediz o conjunto de testes .gHtrumaEuned={h1 1,h2,...,h8}Dtest

Portanto, é uma função de . Para um conjunto de testes específico, (como o que você mencionou), pode acontecer que , mas em geral, dependendo do conjunto de testes, pode assumir qualquer valor em . Por outro lado, é apenas um valor em .gDtestDtestg(Dtest)=h1 1g(Dtest)HtrumaEunedh1 1HtrumaEuned

Para a outra pergunta:

Se o último estiver errado, qual é a maneira correta de aplicar o VC vinculado a conjuntos de hipóteses finitas nesse caso?

Apenas não substitua por , você obterá o limite correto (para , é claro) e não haverá conflito com o outro limite (que é para ).gh1 1gh1 1

Tĩnh Trần
fonte