Por que os modelos de Machine Learning são chamados de caixas pretas?

40

Eu estava lendo esta postagem no blog intitulada: O mundo financeiro quer abrir as caixas pretas da AI , onde o autor se refere repetidamente aos modelos de ML como "caixas pretas".

Uma terminologia semelhante foi usada em vários locais ao se referir aos modelos de ML. Por que é tão?

Não é como se os engenheiros da ML não soubessem o que acontece dentro de uma rede neural. Cada camada é selecionada pelo engenheiro de ML sabendo qual função de ativação usar, o que esse tipo de camada faz, como o erro é propagado de volta etc.

Dawny33
fonte
4
Algo um pouco sutil: o engenheiro de ML conhece toda a estrutura - quantas camadas, funções de ativação etc. O que eles não sabem são os pesos. Mas um modelo de ML é tão determinado por seus pesos que a avaliação do modelo com um conjunto específico de pesos não pode (atualmente) ser interpretada, explicada ou compreendida por seres humanos, mesmo humanos experientes que compreendem completamente a estrutura.
Isaacg
Ligeiramente relevante: stats.stackexchange.com/a/297476/100456
Miguel
3
@isaacg - Um engenheiro de ML pode descobrir facilmente quais são os pesos. A caixa preta tem mais a ver com não saber por que os pesos são o que são e com o que esses pesos se relacionam no mundo real. Portanto, é ainda mais sutil.
josh
Outra pergunta relacionada: datascience.stackexchange.com/q/33524/53479
mapto

Respostas:

51

A coisa da caixa preta não tem nada a ver com o nível de conhecimento do público (desde que o público seja humano), mas com a explicabilidade da função modelada pelo algoritmo de aprendizado de máquina.

Na regressão logística, há uma relação muito simples entre entradas e saídas. Às vezes, você pode entender por que uma determinada amostra foi catalogada incorretamente (por exemplo, porque o valor de determinado componente do vetor de entrada era muito baixo).

O mesmo se aplica às árvores de decisão: você pode seguir a lógica aplicada pela árvore e entender por que um determinado elemento foi atribuído a uma classe ou a outra.

No entanto, redes neurais profundas são o exemplo paradigmático de algoritmos de caixa preta. Ninguém, nem mesmo a pessoa mais experiente do mundo, compreende a função que é modelada pelo treinamento de uma rede neural. Uma visão sobre isso pode ser fornecida por exemplos contraditórios : algumas pequenas alterações (e imperceptíveis a um ser humano) em uma amostra de treinamento podem levar a rede a pensar que pertence a um rótulo totalmente diferente. Existem algumas técnicas para criar exemplos contraditórios e outras para melhorar a robustez contra eles. Mas, como ninguém conhece todas as propriedades relevantes da função modelada pela rede, é sempre possível encontrar uma nova maneira de criá-las.

Os seres humanos também são caixas pretas e também somos sensíveis a exemplos contraditórios .

ncasas
fonte
2
A lógica das árvores de decisão pode ser seguida em teoria , mas geralmente não é prática. Não vejo onde está a diferença fundamental com os NNs.
Miguel
BTW Eu usei e vi caixa preta usada em termos de falta de conhecimento / interesse em aprender até mesmo o básico da ferramenta usada.
Miguel
4
"Mas, como ninguém sabe realmente a função que está sendo modelada pela rede". Isso está errado / está errado. Se não soubéssemos exatamente qual função foi modelada, não poderíamos treiná-las nem usá-las para previsão. Sabemos exatamente qual função é modelada. Não conhecemos (todas) propriedades relevantes disso. E a função é complicada. Mas essa é uma afirmação muito diferente.
Martin Thoma
11
@MartinThoma concordou e atualizado.
Nsas
11
(+1) Mas um nitpick. A regressão logística não faz atribuições de classe, apenas tenta estimar probabilidades condicionais. O mesmo acontece com uma árvore de classificação usada corretamente. As atribuições de classe são impostas por seres humanos que precisam tomar decisões, não pelos próprios algoritmos de ML.
Matthew Drury
18

Embora eu concorde com a resposta dos ncas na maioria dos pontos (+1), eu imploro para diferir em alguns:

  • As árvores de decisão também podem ser usadas como modelos de caixa preta. Na verdade, eu diria que na maioria dos casos eles são usados ​​como modelos de caixa preta. Se você tem 10.000 recursos e uma árvore com profundidade de 50, não pode razoavelmente esperar que um ser humano o entenda.
  • Redes neurais podem ser entendidas. Existem muitas técnicas de análise (consulte o capítulo 2.5 da minha tese de mestrado para algumas que visam melhorar o modelo). Especialmente análise de oclusão (Figura 2.10), Visualização de filtro (Figura 2.11). Também o Por que devo confiar em você? papel ( minhas anotações ).

Explicando a previsão de um modelo de caixa preta por análise de oclusão sofisticada (de "Por que devo confiar em você?"): insira a descrição da imagem aqui

Eu gostaria de salientar o Mythos of Model Interpretability . Ele formula algumas idéias sobre interpretabilidade de maneira concisa.

Sua pergunta

Por que os modelos de Machine Learning são chamados de caixas pretas?

Como as pessoas o usam : porque não modelam o problema de uma maneira que permita que os humanos digam diretamente o que acontece para qualquer entrada.

Pensamentos pessoais

Não acho que essa noção de "modelo de caixa preta" faça muito sentido. Por exemplo, pense em previsão do tempo. Você não pode esperar que qualquer humano diga qual tempo será previsto se ele receber apenas os dados. No entanto, a maioria das pessoas não diria que os modelos climáticos físicos são modelos de caixa preta. Então, onde está a diferença? É apenas o fato de que um modelo foi gerado usando dados e o outro foi gerado usando insights sobre física?

Quando as pessoas falam de modelos de caixas pretas, costumam dizer isso como se fosse uma coisa ruim. Mas os humanos também são modelos de caixa preta. A diferença crítica que vejo aqui é que a classe de erros que os humanos cometem é mais fácil de prever para os humanos. Portanto, é um problema de treinamento (exemplos adversos no lado da NN) e um problema de educação (ensinar aos seres humanos como as NNs funcionam).

Como o termo 'modelo da caixa preta' deve ser usado : Uma abordagem que faz mais sentido para mim é chamar o problema de "problema da caixa preta", semelhante ao que o usuário144410 (+1) escreve. Portanto, qualquer modelo que trate o problema apenas como uma caixa preta - portanto, algo que você pode inserir e obter saída - é um modelo de caixa preta. Os modelos que têm idéias (não apenas assumem!) Sobre o problema não são modelos de caixa preta. A parte do insight é complicada. Todo modelo faz restrições à possível função que pode modelar (sim, eu sei sobre o problema de aproximação universal. Desde que você use um NN de tamanho fixo, ele não se aplica). Eu diria que algo é uma visão do problema se você souber algo sobre o relacionamento de entrada e saída sem cutucar o problema (sem olhar para os dados).

O que segue a seguir:

  • As redes neurais podem ser não blackbox (caixa branca?)
  • A regressão logística pode ser um modelo de caixa preta.
  • É mais sobre o problema e suas idéias sobre ele, menos sobre o modelo.
Martin Thoma
fonte
11
Obrigado. Suas respostas são sempre um prazer de ler :)
Dawny33
11
Você é bem-vindo :-) E obrigado pelas boas palavras :-) Por favor, responda minha pergunta com um grão de sal. Também não tenho muita certeza. Não acho que haja uma resposta definitiva porque as pessoas usam a palavra sem ter uma definição para ela. Portanto, por um lado, o uso entre as pessoas provavelmente é diferente e, por outro lado, mesmo uma única pessoa pode não usá-lo sempre da mesma maneira.
Martin Thoma
7

Tudo se resume a modelar interpretabilidade e explicabilidade. Dada a saída de um modelo mais simples, é possível identificar exatamente como cada entrada contribui para a saída do modelo, mas isso fica mais difícil à medida que os modelos ficam mais complexos. Por exemplo, com regressão, você pode apontar para os coeficientes; com uma árvore de decisão, você pode identificar as divisões. E com essas informações, você pode derivar regras para explicar o comportamento do modelo.

No entanto, à medida que o número de parâmetros do modelo aumenta, fica cada vez mais difícil explicar exatamente quais combinações de entrada levam à saída final do modelo ou derivam regras do comportamento do modelo. Digamos que, no setor financeiro, quando o COO chega e pergunta: "Então, por que seu comércio de alta frequência quebrou a economia", ele não quer ouvir como foi construído, apenas porque o levou à falência. Será possível declarar como o modelo foi construído, mas pode não ser possível explicar quais combinações de fatores que o modelo recebeu como entrada levaram à saída, e é por isso que as pessoas estão falando sobre caixas pretas.

redhqs
fonte
5

Os modelos de caixa preta se referem a quaisquer modelos matemáticos cujas equações são escolhidas para serem o mais geral e flexível possível, sem depender de leis físicas / científicas.

Os modelos de caixa cinza são modelos matemáticos em que parte das equações (função matemática) provém de leis físicas conhecidas, mas a parte restante assume a função geral para compensar a parte inexplicada.

Modelos de caixa branca são modelos matemáticos completamente construídos sobre leis físicas e compreensão do sistema, como por exemplo leis de movimento mecânico (modelo de aeronave etc.)

Veja: https://en.wikipedia.org/wiki/Mathematical_model#A_priori_information

user144410
fonte
Definição interessante! Vamos analisar alguns exemplos: regressão logística, SVMs, NNs, árvores de decisão são todos modelos de caixa preta. Dependendo do contexto, os modelos bayesianos podem estar nas três categorias. Os modelos climáticos são modelos de caixa branca ou cinza.
Martin Thoma
Eu tenho que discordar com esta resposta. Você está traçando a distinção entre modelos empíricos e modelos baseados na teoria física. No entanto, qualquer tipo de modelo pode ser caixa branca ou preta, dependendo de como é empacotado.
Brian Borchers
O termo caixa preta refere-se ao sistema 'verdadeiro' subjacente e está relacionado ao problema de seleção da estrutura do modelo.
user144410
"O termo moderno" caixa preta "parece ter entrado no idioma inglês por volta de 1945. Na teoria dos circuitos eletrônicos, o processo de síntese de redes a partir de funções de transferência, o que levou os circuitos eletrônicos a serem considerados" caixas pretas "caracterizadas por sua resposta aos sinais aplicados até seus portos, pode ser atribuída a Wilhelm Cauer, que publicou suas idéias em sua forma mais desenvolvida em 1941 ... "Fonte: en.wikipedia.org/wiki/Black_box#History
user144410
4

Uma caixa preta, como você deve saber, refere-se a uma função em que você conhece a assinatura das entradas e saídas, mas não sabe como determina as saídas das entradas.

O uso do termo está sendo modificado incorretamente neste caso. Pode estar além da vontade ou capacidade do escritor / autor de conhecer e entender os modelos de BC, mas isso não significa que esteja além da vontade ou capacidade de outros. Os engenheiros que criam cada modelo de ML sabem exatamente como ele funciona e podem abrir a árvore de decisão à vontade e guiá-la. Só porque alguém pode ser muito preguiçoso ou demorar um pouco para fazer isso não significa que as informações não estejam prontamente disponíveis para consumo.

Os modelos ML não são caixas pretas, são caixas transparentes que são realmente grandes.


fonte
3

Os engenheiros de ML não sabem o que se passa dentro de uma rede neural

Desculpe por contradizer você, mas é verdade. Eles sabem como as redes neurais aprendem, mas não sabem o que qualquer rede neural aprendeu. A lógica aprendida pelas redes neurais é notoriamente inescrutável.

O objetivo de usar o aprendizado de máquina geralmente é aprender as regras que um programador ou especialista em domínio não pensaria. Isso é inerentemente difícil de entender.

É análogo a um programa de computador convencional escrito com nomes de variáveis ​​de uma letra, sem comentários, sem estrutura óbvia, usando matemática obscura e tudo por alguém que agora está morto. Você pode percorrê-lo em um depurador, mas ainda está longe de ser claro como ele funciona.

Raramente, alguém se dá ao trabalho de descobrir o que uma rede neural faz. Por exemplo, o algoritmo de min-conflitos foi descoberto através da análise de uma rede neural treinada no problema de rainhas-N . Mas é muito trabalho.

James Hollis
fonte
O mesmo poderia ser dito em alguns métodos lineares, por exemplo, PCA, apenas a fórmula no DL é mais complicada.
Miguel
3

Na postagem de blog citada na pergunta, a discussão é sobre o fato de que os especialistas que desenvolvem modelos de aprendizado de máquina em finanças não conseguem explicar aos seus clientes (financiadores sem treinamento em aprendizado de máquina) como o modelo toma as decisões que toma. .

Isso faz uma distinção entre modelos que são caixas pretas por causa de informações realmente secretas (por exemplo, os coeficientes são codificados em um FPGA à prova de violações) e modelos abertos (no sentido de que os coeficientes são conhecidos), mas não compreensíveis para um público em particular .

Esse último tipo de "caixa preta" é problemático porque os clientes querem se assegurar de que o modelo que você construiu tem "validade válida". Com outros tipos de modelos, como a regressão logística, é relativamente fácil examinar os coeficientes e verificar se eles têm os sinais de mais ou menos esperados - mesmo um MBA matematicamente analfabeto pode entender isso.

Brian Borchers
fonte
2

O Machine Learning pode ser considerado corretamente Caixas pretas, soluções para o problema XOR usando redes neurais podem ser modeladas, mas à medida que o número de entradas cresce, o mesmo acontece com a complexidade e as dimensões. Se é muito complexo para entender e explicar, é uma caixa preta, se podemos ou não calcular os resultados ou não

Só podemos percebê-las em até três dimensões, mas isso é suficiente porque podemos extrapolar essas dimensões em dimensões superiores usando o modelo 3d como ponto de referência. Podemos imaginar mínimos locais, bem como partes de conjuntos de dados que são parcialmente aprendidos.

Eu brinquei com a idéia por um tempo e, por isso, produzi animações de redes neurais no trabalho e melhorei minha compreensão das redes neurais. Eu produzi animações com 1 e 2 camadas ocultas (a terceira é feita principalmente) e como elas aprendem dados.

A animação é lenta e a animação superior direita, mostrando as camadas superiores, vale a pena assistir. Você pode acelerar as animações no Youtube, se quiser, alterações significativas podem ser vistas na animação superior direita com as malhas azul e vermelha às 3:20 laranja e Malha vermelha aos 6 minutos e a malha azul, laranja e vermelha às 8:20. As direções das alterações de peso estão obviamente na animação inferior esquerda

https://www.youtube.com/watch?v=UhQJbFDtcoc

Sierra Oscar
fonte
1

Eu acho que o conceito de caixa preta usado dessa maneira se origina dos testes de caixa preta em garantia de qualidade de software e hardware. É quando você escolhe não ou não consegue ver e ver o funcionamento interno do que está testando. Poderia ser por uma razão que seria

  1. impraticável ou impossível espioná-lo (ele está em um ambiente fechado e simplesmente não podemos investigá-lo) - Mas pode ser

  2. porque há uma chance maior de escrever testes ruins, se alguém puder ver o interior. Maior risco de (com ou sem intenção) "escrever testes projetados para passar".

Escrever o teste para se adequar ao que está sendo testado, diminuindo as chances de realmente encontrar algo.

Seria perfeitamente possível para um engenheiro de sinal experiente espiar o funcionamento interno de uma rede neural e verificar quais recursos estão sendo selecionados em uma sequência de treinamento específica.

mathreadler
fonte
-1

Métodos de caixa preta são difíceis de explicar para os "não iniciados". Qualquer pessoa em finanças ou em outros campos pode entender o básico da regressão ou até mesmo das árvores de decisão. Comece a falar sobre hiperplanos de máquinas de vetores de suporte e funções sigmóides de redes neurais e você perderá a maioria das audiências

Darrin Thomas
fonte