A fórmula de dimensão Vapnik – Chervonenkis (VC) para redes neurais varia de a , com O ( E 2 V 2 ) no pior caso, onde E é o número de arestas e V é o número de nós. O número de amostras de treinamento necessárias para ter uma forte garantia de generalização é linear com a dimensão VC.
Isso significa que, para uma rede com bilhões de arestas, como no caso de modelos bem-sucedidos de aprendizado profundo, o conjunto de dados de treinamento precisa de bilhões de amostras de treinamento, na melhor das hipóteses, a quadrilhões, na pior das hipóteses. Atualmente, os maiores conjuntos de treinamento têm cerca de cem bilhões de amostras. Como não há dados de treinamento suficientes, é improvável que os modelos de aprendizado profundo estejam generalizando. Em vez disso, eles estão ajustando demais os dados de treinamento. Isso significa que os modelos não terão bom desempenho em dados diferentes dos dados de treinamento, que é uma propriedade indesejável para aprendizado de máquina.
Dada a incapacidade do aprendizado profundo de generalizar, de acordo com a análise dimensional do VC, por que os resultados do aprendizado profundo são tão sensacionalistas? Apenas ter uma alta precisão em alguns conjuntos de dados não significa muito em si. Existe algo de especial nas arquiteturas de aprendizado profundo que reduz significativamente a dimensão VC?
Se você não acha que a análise da dimensão VC é relevante, forneça evidências / explicações de que o aprendizado profundo está generalizando e não é super adequado. Ou seja, tem boa recordação e precisão, ou apenas boa recordação? É fácil obter um recall de 100%, assim como 100% de precisão. Aproximar os 100% é muito difícil.
Como exemplo contrário, aqui estão as evidências de que o aprendizado profundo é super adequado. Um modelo com excesso de ajuste é fácil de enganar, pois incorpora ruído determinístico / estocástico. Veja a imagem a seguir para um exemplo de sobreajuste.
Além disso, consulte respostas de classificação mais baixa a esta pergunta para entender os problemas com um modelo de excesso de ajuste, apesar da boa precisão nos dados de teste.
Alguns responderam que a regularização resolve o problema de uma grande dimensão de VC. Veja esta pergunta para uma discussão mais aprofundada.
Respostas:
"Se o mapa e o terreno discordarem, confie no terreno."
Não se entende realmente por que a aprendizagem profunda funciona tão bem quanto funciona, mas certamente conceitos antigos da teoria da aprendizagem, como as dimensões do VC, parecem não ser muito úteis.
O assunto é muito debatido, veja, por exemplo:
Em relação à questão de exemplos contraditórios , o problema foi descoberto em:
É desenvolvido ainda em:
Há muito trabalho subsequente.
fonte
Não, não é isso que a análise dimensional do VC diz. A análise dimensional do VC fornece algumas condições suficientes sob as quais a generalização é garantida. Mas o contrário não é necessariamente verdade. Mesmo se você não atender a essas condições, o método ML ainda poderá generalizar.
Dito de outra forma: o aprendizado profundo funciona melhor do que a análise dimensional do VC o levaria a esperar (melhor do que o previsto pela análise do VC). Isso é uma falta da análise dimensional do VC, não uma falta de aprendizado profundo. Isso não implica que a aprendizagem profunda seja falha. Em vez disso, significa que não sabemos por que a aprendizagem profunda funciona - e a análise de VC é incapaz de fornecer informações úteis.
A alta dimensão do VC não implica que a aprendizagem profunda possa ser enganada. A dimensão alta do VC não garante nada sobre se pode ser enganada em situações práticas. A dimensão VC fornece um limite unidirecional, na pior das hipóteses: se você atende a essas condições, coisas boas acontecem, mas se você não atende a essas condições, não sabemos o que acontecerá (talvez coisas boas ainda ocorram de qualquer maneira, se a natureza se comporta melhor do que o pior caso possível; a análise de VC não promete que coisas boas não podem / não vão acontecer).
Pode ser que a dimensão VC do espaço do modelo seja grande (inclui padrões muito complexos possíveis), mas a natureza é explicada por padrões simples, e o algoritmo ML aprende o padrão simples presente na natureza (por exemplo, devido à regularização) - - nesse caso, a dimensão VC seria alta, mas o modelo seria generalizado (para o padrão específico presente na natureza).
Dito isto ... há evidências crescentes de que o aprendizado profundo pode ser enganado por exemplos contraditórios. Mas tenha cuidado com sua cadeia de raciocínio. As conclusões que você está tirando não seguem as premissas com as quais você começou.
fonte
O pessoal da indústria não tem consideração pela dimensão do VC, hooligans ...
Em uma observação mais séria, embora o modelo do PAC seja uma maneira elegante de pensar sobre a aprendizagem (pelo menos na minha opinião), e seja suficientemente complexo para gerar conceitos e perguntas interessantes (como a dimensão VC e sua conexão com a complexidade da amostra) , tem muito pouco a ver com situações da vida real.
Lembre-se de que no modelo PAC você deve lidar com distribuições arbitrárias, isso significa que seu algoritmo deve lidar com distribuições adversárias. Ao tentar aprender alguns fenômenos no mundo real, ninguém está fornecendo "dados contraditórios" para atrapalhar seus resultados; portanto, exigir que uma classe conceitual seja aprendida pelo PAC pode ser muito forte. Às vezes, você pode vincular o erro de generalização independentemente da dimensão VC, para uma classe específica de distribuições. É o caso dos limites de margem, formulados independentemente da dimensão VC. Eles podem prometer um erro de generalização baixo se você puder garantir uma margem empírica alta (o que, é claro, não pode acontecer para todas as distribuições, por exemplo, faça dois pontos próximos no plano com tags opostas e concentre a distribuição nelas).
Então, deixando de lado o modelo PAC e a dimensão VC, acho que o hype vem do fato de que eles parecem funcionar e ter sucesso em tarefas que antes não eram possíveis (uma das mais recentes conquistas que vem à mente é o AlphaGo). Eu sei muito pouco sobre redes neurais, então espero que alguém com mais experiência apareça, mas que eu saiba ainda não há boas garantias (definitivamente não é como no modelo PAC). Talvez, sob as suposições corretas, alguém possa justificar formalmente o sucesso das redes neurais (presumo que haja trabalhos em torno do tratamento formal das redes neurais e do "aprendizado profundo", por isso, espero que pessoas com mais conhecimento sobre o assunto possam vincular alguns trabalhos) .
fonte
Eu não sei de onde você tira isso. Empiricamente, a generalização é vista como a pontuação (por exemplo, precisão) em dados não vistos.
A resposta por que as CNNs são usadas é simples: as CNNs funcionam muito melhor do que qualquer outra coisa . Veja o ImageNet 2012, por exemplo:
Crie um classificador que seja melhor e as pessoas mudem para isso.
Este não é o caso. Você pode criar um classificador extremamente simples em um conjunto de dados simples. Não será possível enganá-lo (nem importa o que "fácil" significa), mas também não é interessante.
fonte
A resposta de uma palavra é "regularização". A fórmula ingênua da dimensão VC realmente não se aplica aqui, porque a regularização exige que os pesos não sejam gerais. Apenas uma pequena proporção (infinitesimal?) De combinações de peso apresenta perda aceitável após a regularização. Como a dimensão verdadeira é muitas ordens de magnitude menor como resultado, é possível generalizar com os conjuntos de treinamento que temos. Os resultados da vida real confirmam que o ajuste excessivo geralmente não está acontecendo.
fonte
Abordamos o artigo: Compreender o Deep Learning Requer Repensar a Generalização. no
Repensar a generalização requer revisitar velhas idéias: abordagens da mecânica estatística e comportamento complexo de aprendizagem Charles H. Martin e Michael W. Mahoney
Veja: https://arxiv.org/pdf/1710.09553.pdf
Basicamente, argumentamos que os limites de VC são muito frouxos, porque a abordagem fundamental e como o limite estatístico adotado não é realista.
Uma abordagem melhor está na Mecânica Estatística, que considera uma classe de funções dependentes de dados, assume o limite Termodinâmico (não apenas o limite de grandes números)
Além disso, também apontamos como as descontinuidades naturais em necessidade profunda levam a transições de fase na curva de aprendizado, que acreditamos estar sendo observadas no artigo do Google (acima)
Com relação aos limites, consulte a seção 4.2 do nosso artigo
"Claramente, se fixarmos o tamanho da amostra me deixarmos [o tamanho da classe de função] N → ∞, [ou vice-versa, fixar N, vamos m → ∞], não devemos esperar um resultado não trivial, pois [ N] está se tornando maior, mas o tamanho da amostra é fixo. Assim, [em Mecânica Estatística], normalmente se considera o caso em que m, N → ∞ seja tal que α = m / N seja uma constante fixa ".
Ou seja, muito raramente adicionaríamos mais dados (m) a uma rede profunda. Também sempre aumentamos o tamanho da rede (N), porque sabemos que podemos capturar recursos / informações mais detalhadas dos dados. Em vez disso, fazemos na prática o que defendemos no artigo - assumimos o limite do tamanho grande, com a razão m / N fixa (em vez de dizer fixar me deixar N aumentar).
Estes resultados são bem conhecidos na Mecânica Estatística da Aprendizagem. A análise é mais complicada, mas os resultados levam a uma estrutura muito mais rica que explica muitos fenômenos no aprendizado profundo.
Além disso, e em particular, sabe-se que muitos limites das estatísticas se tornam triviais ou não se aplicam a distribuições de probabilidade não suaves ou quando as variáveis assumem valores discretos. Nas redes neurais, o comportamento não trivial surge devido a descontinuidades (nas funções de ativação), levando a transições de fase (que surgem no limite termodinâmico).
O artigo que escrevemos tenta explicar as idéias mais importantes para um público de ciência da computação.
O próprio Vapnik percebeu que sua teoria não era realmente aplicável às redes neurais ... em 1994
"A extensão da [dimensão VC] a redes multicamadas enfrenta [muitas] dificuldades .. os algoritmos de aprendizado existentes não podem ser vistos como minimizadores do risco empírico sobre todo o conjunto de funções implementáveis pela rede ... [porque] é provável ... a pesquisa será confinada a um subconjunto de [essas] funções ... A capacidade deste conjunto pode ser muito menor que a capacidade de todo o conjunto ... [e] pode mudar com o número de observações. Isso pode exigir uma teoria que considere a noção de capacidade não constante com um subconjunto de funções "ativo" "
Vapnik, Levin e LeCun 1994
http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf
Embora não seja fácil de tratar com a teoria de VC, esse não é um problema para os stat statech ... e o que eles descrevem se parece muito com a Energy Landscape Theory do dobramento de proteínas. (que será o tópico de um artigo futuro)
fonte
Parece que ninguém apontou nas respostas acima que a fórmula de dimensão VC mencionada é apenas para uma rede neural de uma camada. Meu palpite é que a dimensão VC realmente cresce exponencialmente à medida que o número de camadas L aumenta. Meu raciocínio é baseado em considerar redes neurais profundas, nas quais a função de ativação é substituída por redes polinomiais. Então, o grau dos polinômios compostos aumenta exponencialmente à medida que as camadas aumentam.
fonte