Existe alguma literatura que enumere as características dos algoritmos que lhes permitam ser explicáveis?
A única literatura que conheço é o artigo recente de Ribero, Singh e Guestrin. Eles primeiro definem a explicabilidade de uma única previsão:
Ao “explicar uma previsão”, queremos dizer apresentar artefatos textuais ou visuais que fornecem entendimento qualitativo do relacionamento entre os componentes da instância (por exemplo, palavras no texto, manchas na imagem) e a previsão do modelo.
Os autores elaboram ainda mais o que isso significa para exemplos mais concretos e, em seguida, usam essa noção para definir a explicabilidade de um modelo. Seu objetivo é tentar, por assim dizer, acrescentar explicabilidade artificialmente a modelos intransparentes, em vez de comparar a explicabilidade dos métodos existentes. De qualquer forma, o artigo pode ser útil, pois tenta introduzir uma terminologia mais precisa em torno da noção de "explicabilidade".
Existem modelos de aprendizado de máquina comumente aceitos como representando uma boa troca entre os dois?
Concordo com a @Winter que a rede elástica para regressão (não apenas logística) pode ser vista como um exemplo de um bom compromisso entre a precisão da previsão e a explicabilidade.
Para um tipo diferente de domínio de aplicativo (série temporal), outra classe de métodos também oferece um bom compromisso: Modelagem Bayesiana de Séries Temporais Estruturais. Ele herda a explicabilidade da modelagem de séries temporais estruturais clássicas e alguma flexibilidade da abordagem bayesiana. Semelhante à regressão logística, a explicabilidade é ajudada pelas equações de regressão usadas para a modelagem. Veja este documento para uma boa aplicação em marketing e outras referências.
Relacionado ao contexto bayesiano que acabamos de mencionar, você também pode querer olhar para modelos gráficos probabilísticos. Sua explicabilidade não se baseia em equações de regressão, mas em formas gráficas de modelagem; veja "Modelos Gráficos Probabilísticos: Princípios e Técnicas", de Koller e Friedman, para uma ótima visão geral.
Não tenho certeza se podemos nos referir aos métodos bayesianos acima como uma "boa troca geralmente aceita". Eles podem não ser suficientemente conhecidos para isso, especialmente em comparação com o exemplo de rede elástica.
Eu suponho que, sendo bom em previsões, você significa ser capaz de ajustar as não linearidades presentes nos dados e, ao mesmo tempo, ser bastante robusto à super adaptação. A troca entre interpretabilidade e capacidade de prever essas não linearidades depende dos dados e da pergunta. Realmente não há almoço grátis na ciência de dados e nenhum algoritmo isolado pode ser considerado o melhor para qualquer conjunto de dados (e o mesmo se aplica à interpretabilidade).
A regra geral deve ser que quanto mais algoritmos você conhecer, melhor será para você, pois poderá adotar suas necessidades específicas com mais facilidade.
Se eu tivesse que escolher a minha tarefa favorita de classificação que costumo usar no ambiente de negócios, escolheria a rede elástica para regressão logística . Apesar da forte suposição sobre o processo que gera os dados, eles podem ser facilmente adotados, graças ao termo de regularização, mantendo sua interpretabilidade a partir da regressão logística básica.
Eu sugiro que você escolha um livro bem escrito que descreva os algoritmos de aprendizado de máquina comumente usados e seus prós e contras em diferentes cenários. Um exemplo desse livro pode ser The Elements of Statistical Learning por T. Hastie, R. Tibshirani e J. Friedman
fonte
Possivelmente veja minha resposta sobre a eficácia irracional dos conjuntos e as vantagens e desvantagens entre explicação e previsão. O Minimum Message Length (MML, Wallace 2005) fornece uma definição formal de explicação em termos de compactação de dados e motiva a expectativa de que as explicações geralmente se ajustem sem sobreajuste, e boas explicações geram boas previsões generalizáveis. Mas também toca na teoria formal por que os conjuntos prevêem melhor - um resultado que remonta a (Solomonoff 1964) sobre previsão ideal e abordagens intrínsecas a totalmente bayesianas: integre-se na distribuição posterior, não apenas escolha a média, a mediana, ou modo.
fonte