O que a dimensão VC nos diz sobre aprendizado profundo?

15

No aprendizado de máquina básico, aprendemos as seguintes "regras práticas":

a) o tamanho dos seus dados deve ser pelo menos 10 vezes o tamanho da dimensão VC do seu conjunto de hipóteses.

b) uma rede neural com conexões N tem uma dimensão VC de aproximadamente N.

Então, quando uma rede neural de aprendizado profundo diz, milhões de unidades, isso significa que deveríamos ter, digamos, bilhões de pontos de dados? Você pode, por favor, lançar alguma luz sobre isso?

Fequish
fonte
Uma rede neural profunda não terá milhões de unidades como você declara. No entanto, ele terá milhões de conexões. Eu diria que sua segunda regra de ouro não se aplica a essas redes, principalmente devido à sua natureza regularizada (por exemplo, CNN com abandono).
pir
Eu acho que a chave é que o VC ligado não é infinito. Se for finito, a teoria do PAC nos diz que o aprendizado é viável. Quantos dados, isso é outra questão.
Vladislavs Dovgalecs

Respostas:

4

A regra geral de que você fala não pode ser aplicada a uma rede neural.

Uma rede neural possui alguns parâmetros básicos, como pesos e vieses. O número de pesos depende do número de conexões entre as camadas da rede e o número de vieses depende do número de neurônios.

O tamanho dos dados necessários depende muito de -

  1. O tipo de rede neural usada .
  2. As técnicas de regularização utilizadas na rede .
  3. A taxa de aprendizado usada no treinamento da rede.

Dito isto, a maneira mais adequada e segura de saber se o modelo está sendo ajustado demais é verificar se o erro de validação está próximo do erro de treinamento. Se sim, então o modelo está funcionando bem. Caso contrário, é provável que o modelo esteja sobreajuste e isso significa que você precisa reduzir o tamanho do seu modelo ou introduzir técnicas de regularização.

Azrael
fonte
Você deve estar brincando quando diz que a melhor maneira de entender se o modelo está se ajustando demais é verificar se o erro de validação está próximo do erro de treinamento.
Nbro 5/11/19
6
@nbro, se você tiver um conjunto de retenção adequado para verificar o erro de validação, é uma medida muito mais confiável de sobreajuste para sua rede treinada específica do que passar por limites de VC geralmente muito frouxos.
Dougal
@ Dougal Você está apenas repetindo o que disse na sua resposta.
Nbro 5/11/19
3
Não é minha resposta @nbro. Mas, dado um conjunto de validação, você pode obter uma probabilidade trivial de alta probabilidade com o erro de generalização real com Hoeffding ou similar, enquanto atravessar os limites de VC envolve muitos limites superiores frouxos que não são específicos para o conjunto de dados e a rede específicos em que você está. mão.
Dougal