Em 2015, Tishby e Zaslavsky publicaram um artigo bem conhecido, alegando que o chamado Princípio do Gargalo da Informação poderia ser usado para entender algum comportamento de redes neurais profundas. Em um artigo mais recente (abril de 2017) , Schwartz-Ziv e Tishby expandem essas reivindicações, visualizando em particular alguns dos resultados.
No final de 2017, um artigo crítico de Saxe et al. foi publicado no site do OpenReview (com revisões tão recentes quanto 2 semanas atrás). Alega que muitas das alegações feitas no artigo de Schwartz-Ziv-Tishby não se sustentam, ou pelo menos não na generalidade reivindicada. De fato, se eu estiver lendo certo, eles alegam que o resultado visualizado é um artefato da escolha da função de ativação - algo que não deveria importar de acordo com a teoria.
No entanto, nos comentários, Schwartz-Ziv e Tishby aparecem com uma longa lista de comentários no artigo crítico, dizendo que a crítica erra o alvo. Por sua vez, os autores do artigo crítico respondem, mas talvez a conversa ainda não esteja concluída.
Estou interessado em iniciar um projeto de pesquisa sobre os aspectos de aprendizado profundo do gargalo da informação, mas estou preocupado que vou perder tempo aprendendo algo que já foi 'refutado'. Portanto, minha pergunta é:
Qual é a opinião atual dos especialistas sobre a aplicabilidade do Princípio do Gargalo de Informações na compreensão da Aprendizagem Profunda?
Em particular, estou interessado em pesquisas sobre o assunto além daquilo que vinculei e comentários de especialistas (direta ou indiretamente).
fonte
Respostas:
O que direi aqui é que as provas de que a compressão garante um limite inferior melhor à generalização são aceitas, mas não é amplamente aceito se esse limite inferior é praticamente relevante.
Por exemplo, um modelo com melhor compactação pode aumentar o limite inferior de 1,0 para 1,5, mas pode não ser relevante se todos os modelos já estiverem executando de 2,0 a 2,5. Da mesma forma, acho que é aparente que, embora a compressão seja suficiente para uma certa generalização garantida, ela claramente não é necessária (por exemplo, redes neurais invertíveis podem obter uma generalização perfeita).
Provavelmente, a conclusão correta é que a teoria e a análise são uma direção útil, mas não está claro se diz algo sobre redes reais.
fonte