O que é minimização de energia no aprendizado de máquina?

14

Eu estava lendo sobre otimização para um problema mal colocado na visão por computador e me deparei com a explicação abaixo sobre otimização na Wikipedia. O que eu não entendo é: por que eles chamam essa otimização de " minimização de energia " no Computer Vision?

Um problema de otimização pode ser representado da seguinte maneira:

Dada: uma função de um conjunto A para os números reaisf:ARA

Procurado: um elemento em A tal que f ( x 0 ) f ( x ) para todo x em A ("minimização") ou tal que f ( x 0 ) f ( x ) para todo x em A (" maximização ").x0Af(x0)f(x)xAf(x0)f(x)xA

Essa formulação é chamada de problema de otimização ou problema de programação matemática (um termo não diretamente relacionado à programação de computadores, mas ainda em uso, por exemplo, em programação linear - consulte Histórico abaixo). Muitos problemas teóricos e do mundo real podem ser modelados nessa estrutura geral. Os problemas formulados usando essa técnica nos campos da física e da visão computacional podem se referir à técnica como minimização de energia, falando do valor da função como representando a energia do sistema que está sendo modelado.f

iamprem
fonte

Respostas:

7

Modelos baseados em energia são uma estrutura unificada para representar muitos algoritmos de aprendizado de máquina. Eles interpretam a inferência como minimizando uma função energética e o aprendizado como minimizando uma perda funcional.

A função de energia é uma função da configuração de variáveis ​​latentes e da configuração de entradas fornecidas em um exemplo. Inferência normalmente significa encontrar uma configuração de baixa energia ou amostragem da configuração possível para que a probabilidade de escolher uma determinada configuração seja uma distribuição de Gibbs.

A perda funcional é uma função dos parâmetros do modelo, dados muitos exemplos. Por exemplo, em um problema de aprendizado supervisionado, sua perda é o erro total nas metas. Às vezes é chamado de "funcional" porque é uma função da função (parametrizada) que constitui o modelo.

Artigo principal:

Y. LeCun, S. Chopra, R. Hadsell, M. Ranzato e FJ Huang, “Um tutorial sobre aprendizagem baseada em energia”, em Predicting Structured Data, MIT Press, 2006.

Veja também:

LeCun, Y. e Huang, FJ (2005). Funções de perda para treinamento discriminatório de modelos baseados em energia. Atas do 10º Workshop Internacional de Inteligência Artificial e Estatística (AIStats'05). Recuperado em http://yann.lecun.com/exdb/publis/pdf/lecun-huang-05.pdf

Ranzato, M., Boureau, Y.-L., Chopra, S., & LeCun, Y. (2007). Uma estrutura unificada baseada em energia para aprendizado não supervisionado. Proc. Conferência sobre IA e Estatística (AI-Stats). Recuperado em http://dblp.uni-trier.de/db/journals/jmlr/jmlrp2.html#RanzatoBCL07

Neil G
fonte
3
Você pode expandir o que significa "Eles interpretam a inferência como minimizando uma função de energia e aprendendo como minimizando uma função de perda"? Como uma função de energia é diferente de uma função de perda?
Cliff AB
Você poderia por favor elaborar sua resposta
iamprem
@CliffAB Espero que seja mais claro?
Neil G
@ NeilG: para ser sincero, ainda estou um pouco confuso. Para mim, parece que a "função de energia" é essencialmente a mesma coisa que a função de probabilidade nas estatísticas. É uma interpretação razoável ou estou perdendo algo mais sutil?
Cliff AB
@CliffAB: A função de energia pode ser a probabilidade de log; nesse caso, a energia total exponenciada é uma. No entanto, isso nem é necessário: modelos baseados em energia não probabilísticos não se preocupam com essa normalização, o que pode torná-los mais eficientes do que os modelos probabilísticos. Isso ocorre porque evita avaliar integrais caras no espaço de configuração.
7116 Neil G
2

Na literatura de detecção de sinal, a energia de um sinal xt é definida como

E=Σxt2

Quando prever alguma resposta y a partir de algumas características x, uma forma muito comum e simples de proceder consiste em minimizar a soma dos quadrados dos erros

SSE=Σ(y-y^)2
, onde y é a resposta ajustada. Observe a semelhança? O SSE é energia. Essa energia é minimizada pelos parâmetros ajustados.y^

stan
fonte
1
Eu acho que você está confundindo a perda com a energia
Neil G
Estou usando a definição padrão de energia do processamento de sinal . As pessoas de ciência da computação / aprendizado de máquina tendem a redefinir termos, eu acho. Eu venho de estatísticas e de fundo de processamento de sinal
stan
Sua primeira fórmula é uma função energética. A segunda fórmula é a função de perda, pois não é uma função da configuração.
7116 Neil G
@ Neil Tenho certeza de que você está usando a terminologia corretamente, conforme definido nos documentos que você citou. É apenas uma terminologia diferente do que eu estou acostumado a onde SSE é energia
stan