O que é um estudo de ablação? E existe uma maneira sistemática de realizá-lo?

O significado original de "Ablação" é a remoção cirúrgica do tecido corporal . O termo “estudo da ablação” tem suas raízes no campo da neuropsicologia experimental das décadas de 1960 e 1970, onde partes do cérebro dos animais foram removidas para estudar o efeito que isso causava no seu comportamento.

No contexto do aprendizado de máquina, e especialmente das redes neurais profundas complexas, o “estudo da ablação” foi adotado para descrever um procedimento em que certas partes da rede são removidas, a fim de obter uma melhor compreensão do comportamento da rede.

O termo recebeu atenção desde um tweet de Francois Chollet , principal autor da estrutura de aprendizado profundo de Keras, em junho de 2018:

Os estudos de ablação são cruciais para a pesquisa de aprendizado profundo - não podem enfatizar isso o suficiente. Entender a causalidade em seu sistema é a maneira mais direta de gerar conhecimento confiável (o objetivo de qualquer pesquisa). E a ablação é uma maneira de muito baixo esforço para examinar a causalidade.

Se você fizer uma configuração experimental complicada de aprendizado profundo, é possível remover alguns módulos (ou substituir alguns recursos treinados por outros aleatórios) sem perda de desempenho. Livre-se do barulho no processo de pesquisa: faça estudos de ablação.

Não consegue entender completamente o seu sistema? Muitas partes móveis? Deseja ter certeza de que o motivo pelo qual está funcionando está realmente relacionado à sua hipótese? Tente remover coisas. Gaste pelo menos 10% do seu tempo de experimentação em um esforço honesto para refutar sua tese.

Como exemplo, Girshick e colegas (2014) descrevem um sistema de detecção de objetos que consiste em três "módulos": o primeiro propõe regiões de uma imagem nas quais procurar um objeto usando o algoritmo de Pesquisa Seletiva ( Uijlings e colegas 2012 ), que alimenta uma grande rede neural convolucional (com 5 camadas convolucionais e 2 camadas totalmente conectadas) que executa a extração de recursos, que por sua vez alimenta um conjunto de máquinas de vetores de suporte para classificação. Para entender melhor o sistema, os autores realizaram um estudo de ablação em que diferentes partes do sistema foram removidas - por exemplo, remover uma ou ambas as camadas totalmente conectadas da CNN resultou em surpreendentemente pouca perda de desempenho, o que permitiu aos autores concluir

Grande parte do poder representacional da CNN vem de suas camadas convolucionais, e não das camadas densamente conectadas muito maiores.

O OP solicita detalhes de / como / realizar um estudo de ablação e referências abrangentes. Não acredito que haja uma resposta "tamanho único" para isso. É provável que as métricas sejam diferentes, dependendo da aplicação e dos tipos de modelo. Se restringirmos o problema simplesmente a uma rede neural profunda, é relativamente simples ver que podemos remover camadas de uma maneira baseada em princípios e explorar como isso altera o desempenho da rede. Além disso, na prática, todas as situações são diferentes e, no mundo de grandes aplicativos complexos de aprendizado de máquina, isso significa que provavelmente será necessária uma abordagem única para cada situação.

No contexto do exemplo no PO - regressão linear - um estudo de ablação não faz sentido, porque tudo o que pode ser "removido" de um modelo de regressão linear são alguns dos preditores. Fazer isso de uma maneira "baseada em princípios" é simplesmente um procedimento de seleção inversa, que geralmente é desaprovado - veja aqui , aqui e aqui para obter detalhes. Um procedimento de regularização como o Lasso é uma opção muito melhor para regressão linear.

Refs:

Girshick, R., Donahue, J., Darrell, T. e Malik, J., 2014. Ricas hierarquias de recursos para detecção precisa de objetos e segmentação semântica. Em Anais da conferência IEEE sobre visão computacional e reconhecimento de padrões (pp. 580-587).

Uijlings, JR, Van De Sande, KE, Gevers, T. e Smeulders, AW, 2013. Pesquisa seletiva para reconhecimento de objetos. Revista internacional de visão computacional, 104 (2), pp.154-171.

Robert Long
fonte

@cgo isso responde sua pergunta? Se assim for, por favor, você pode marcá-la como a resposta aceita ...

Robert Long

O que é um estudo de ablação? E existe uma maneira sistemática de realizá-lo?

Respostas: