Quais são as alternativas à dimensão VC para medir a complexidade das redes neurais?

16

Eu me deparei com algumas maneiras básicas de medir a complexidade das redes neurais:

Existem outras alternativas?

É preferido:

  • Se a métrica de complexidade puder ser usada para medir redes neurais de diferentes paradigmas (para medir backprop, redes neurais dinâmicas, correlação em cascata, etc.) na mesma escala. Por exemplo, a dimensão VC pode ser usada para tipos diferentes em redes (ou até outras coisas que não sejam redes neurais), enquanto o número de neurônios é útil apenas entre modelos muito específicos, nos quais a função de ativação, sinais (somas básicas x picos) e outros propriedades da rede são as mesmas.
  • Se possui boas correspondências a medidas padrão de complexidade de funções aprendidas pela rede
  • Se é fácil calcular a métrica em redes específicas (essa última não é obrigatória).

Notas

Esta pergunta é baseada em uma pergunta mais geral no CogSci.SE.

Artem Kaznatcheev
fonte
3
A complexidade também não deveria depender do algoritmo de aprendizado? A dimensão VC é geralmente aplicada a métodos com funções de perda convexa. Se você tiver uma perda não convexa, poderá entrar na situação em que o modelo seria capaz de separar alguns pontos, mas o algoritmo de aprendizado nunca encontrará essa solução. Portanto, acho que deve ser bastante difícil ter limites usando a estrutura da rede. Concordo com o @tdc que o erro de generalização é o caminho a percorrer. O artigo de Vapnik sobre a teoria estatística da aprendizagem pode ser um bom lugar para começar a aprender sobre isso.
Andreas Mueller

Respostas:

8

Você pode dar uma olhada no artigo "(Não) limitando o verdadeiro erro de John Langford e Rich Caruana (NIPS, 2001)

O resumo declara:

Apresentamos uma nova abordagem para limitar a verdadeira taxa de erro de um classificador de valor contínuo com base nos limites de PAC-Bayes. O método primeiro constrói uma distribuição sobre os classificadores, determinando a sensibilidade de cada parâmetro no modelo ao ruído. A verdadeira taxa de erro do classificador estocástico encontrado com a análise de sensibilidade pode ser fortemente limitada usando um limite PAC-Bayes. Neste artigo, demonstramos o método em redes neurais artificiais com resultados de uma melhoria de ordem de magnitude 2 3 vs. os melhores limites da rede neural determinística.

Eles mostram que você pode aplicar limites de estilo PAC-Bayes a redes neurais estocásticas. No entanto, a análise se aplica apenas a redes neurais de avanço de duas camadas com uma função de transferência sigmoidal. Nesse caso, o termo complexidade depende apenas do número de nós e da variação dos pesos. Eles mostram que, para essa configuração, o limite prevê efetivamente quando o treinamento em excesso ocorrerá. Infelizmente, ele realmente não atinge nenhuma das suas propriedades "preferidas"!

tdc
fonte
+1 que parece legal - obrigado, vou dar uma olhada. Mas concordo que ele não se encaixa em nenhuma das propriedades preferidas e, em primeira mão, não parece realmente medir a complexidade da rede tanto quanto seu desempenho ... mas acho que são inseparáveis.
Artem Kaznatcheev
O que ele está vendo é Erro de generalização . Os limites criados geralmente têm um termo baseado no erro de treinamento e um termo de penalidade baseado na complexidade do modelo. Tudo o que você está interessado é o termo complexidade, mas será um ingrediente em quase todos os limites. Este vídeo explica melhor do que eu!
tdc
acho que essa direção não está correta. erro é muito diferente da complexidade da rede. embora a teoria existente possa embaçar os dois. um exemplo simples é o ajuste excessivo onde o erro é baixo, mas a complexidade é alta. Além disso, o erro pode se comportar de maneiras contra-intuitivas em relação à complexidade. como viés. parece que uma pequena rede pode subestimar o erro. etcetera
@vzn, mas erro de generalização é o erro em dados futuros - ou seja, se você tiver um erro de treinamento baixo e alta complexidade, seu erro associado será perdido.
tdc 12/02/12
3

Além disso, você também pode ter interesse no trabalho da dimensão destruidora de gorduras feito pelo professor Peter Bartlett. Aqui está uma introdução à análise da complexidade da rede neural, em um artigo do IEEE de 1998: A complexidade da amostra de classificação de padrões com redes neurais: o tamanho dos pesos é mais importante que o tamanho da rede (Bartlett 1998) [ http: //ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=661502]

Shaun Singh
fonte