Vantagens de abordar um problema através da formulação de uma função de custo globalmente otimizável

9

Essa é uma pergunta bastante geral (ou seja, não necessariamente específica para estatística), mas notei uma tendência no aprendizado de máquina e na literatura estatística em que os autores preferem seguir a seguinte abordagem:

Abordagem 1 : Obter uma solução para um problema prático, formulando uma função de custo para a qual é possível (por exemplo, do ponto de vista computacional) encontrar uma solução globalmente ótima (por exemplo, formulando uma função de custo convexa).

ao invés de:

Abordagem 2 : obtenha uma solução para o mesmo problema formulando uma função de custo para a qual talvez não consigamos obter uma solução ótima globalmente (por exemplo, só podemos obter uma solução ótima localmente).

Observe que falando rigorosamente os dois problemas são diferentes; o pressuposto é que podemos encontrar a solução ideal globalmente para a primeira, mas não para a segunda.

Outras considerações à parte (ou seja, velocidade, facilidade de implementação, etc.), estou procurando:

  1. Uma explicação para esta tendência (por exemplo, argumentos matemáticos ou históricos)
  2. Benefícios (práticos e / ou teóricos) para seguir a Abordagem 1 em vez de 2 na resolução de um problema prático.
Amelio Vazquez-Reina
fonte

Respostas:

3

Acredito que o objetivo deve ser otimizar a função na qual você está interessado. Se esse for o número de erros de classificação - e não uma probabilidade binomial, por exemplo -, tente minimizar o número de erros de classificação. No entanto, pelo número de razões práticas mencionadas (velocidade, implementação, instabilidade, etc.), isso pode não ser tão fácil e até impossível. Nesse caso, optamos por aproximar a solução.

Conheço basicamente duas estratégias de aproximação; ou criamos algoritmos que tentam aproximar diretamente a solução do problema original ou reformulamos o problema original como um problema mais diretamente solucionável (por exemplo, relaxações convexas).

Um argumento matemático para preferir uma abordagem à outra é se podemos entender a) as propriedades da solução realmente calculada eb) quão bem a solução se aproxima da solução do problema em que realmente estamos interessados.

Conheço muitos resultados em estatísticas nas quais podemos provar propriedades de uma solução para um problema de otimização. Para mim, parece mais difícil analisar a solução de um algoritmo, onde você não tem uma formulação matemática do que ele calcula (por exemplo, que resolve um determinado problema de otimização). Certamente não vou afirmar que você não pode, mas parece ser um benefício teórico , se você puder fornecer uma formulação matemática clara do que você computa.

Não está claro para mim, se tais argumentos matemáticos oferecem benefícios práticos à Abordagem 1 em vez da Abordagem 2. Certamente há alguém por aí, que não tem medo de uma função de perda não convexa .

NRH
fonte
Obrigado pela referência à palestra de Yann LeCun. Estou ansioso para assistir.
Amelio Vazquez-Reina
1

A @NRH forneceu uma resposta a essa pergunta (há mais de 5 anos), então, apenas apresentarei uma Abordagem 3, que combina as Abordagens 1 e 2.

Abordagem 3 :

  1. Formule e resolva com a otimização global um problema convexo ou, de qualquer forma, otimizável globalmente (não necessariamente convexo), que é "próximo" do problema que você realmente deseja resolver.
  2. Use a solução globalmente ideal da etapa 1 como a solução inicial (inicial) para um problema de otimização não convexo que você realmente deseja resolver (ou mais deseja resolver do que o problema resolvido na etapa 1). Espero que sua solução inicial esteja na "região de atração" em relação ao ótimo global em relação ao método de solução empregado para resolver o problema de otimização não convexo que você realmente deseja resolver.
Mark L. Stone
fonte
Por favor, forneça um exemplo concreto.
precisa saber é
Não é exatamente o caso de Mark, mas uma abordagem comum em muitos problemas de visão por computador é usar a não-convexidade graduada para obter uma sequência de ótimas ótimas locais em problemas relacionados. Um exemplo concreto é o fluxo óptico grosso a fino, onde, para um par de imagens, um alinhamento de escala grossa é usado para propagar a pesquisa em escalas mais refinadas, movendo-se através de um par de pirâmides de imagem .
GeoMatt22
yumaebxyumauma+bbxuma=eumaumaoptEumumaeu,b=bboptEumumaeucomo valores iniciais para os mínimos quadrados não lineares. Os problemas são semelhantes, mas os erros são tratados de maneira diferente. Existem muitos problemas nos quais uma penalidade não convexa é desejada (para a etapa 2), mas pode ser substituída por uma penalidade convexa para a etapa 1. Várias iterações também são possíveis.
Mark L. Stone
@ GeoMatt22 O que você descreveu é semelhante em espírito e se sobrepõe aos chamados métodos de homotopia, nos quais um caminho para a solução do problema que você realmente deseja resolver é traçado pela solução de uma série de problemas nos quais um parâmetro, como uma restrição limitada, é gradualmente alterada e problemas sucessivos resolvidos, para os quais o primeiro problema é fácil de resolver do zero. De fato, pode ser que o primeiro problema seja convexo ou passível de solução, mas os problemas posteriores podem não ser, mesmo que sua solução ótima possa ser contínua no parâmetro.
Mark L. Stone