KKT em poucas palavras graficamente

13

Objetivo

Confirme se o entendimento da KKT está correto ou não. Procure mais explicações e confirmações na KKT.

fundo

Tentando entender as condições KKT, especialmente a complementar, que sempre aparece do nada nos artigos SVM. Não preciso de uma lista de fórmulas abstratas, mas de uma explicação concreta, intuitiva e gráfica.

Questão

Se P, que minimiza a função de custo f (X), estiver dentro da restrição (g (P)> = 0), é a solução. Parece que a KKT não é relevante neste caso.

insira a descrição da imagem aqui

Parece que a KKT diz que se P não estiver dentro da restrição, a solução X deve satisfazer abaixo na figura. É o KKT ou sinto falta de outros aspectos importantes?

insira a descrição da imagem aqui

Outros esclarecimentos

  1. F (x) deve ser convexo para a KKT aplicar?
  2. G (x) deve ser linear para a KKT aplicar?
  3. Λ deve ser necessário em λ * g (X) = 0? Por que g (X) = 0 ou g (Xi) = 0 não é suficiente?

Referências


Atualização 1

Obrigado pelas respostas, mas ainda lutamos para entender. Concentre-se apenas na necessidade aqui:

A condição (2) na resposta de Matthew Gunn sobre o ponto não ótimo (no círculo verde) e o KKT não será satisfeita lá? E o ponto seria identificado olhando Hessian como na resposta de Mark L. Stone?

Suponho que outra situação seja pontos de sela, mas o mesmo se aplica?

insira a descrição da imagem aqui

insira a descrição da imagem aqui user23658

seg
fonte
1
Essa pergunta pode atrair mais atenção no site de matemática; As condições KKT não são necessariamente "estatísticas". Os estatísticos emprestam esses e outros resultados da análise numérica para resolver problemas estatísticos interessantes, mas isso é mais uma questão de matemática.
precisa saber é o seguinte
1
(1) Se as restrições não se vinculam, o problema de otimização com as restrições tem a mesma solução que o problema de otimização sem as restrições. (2) Nem precisa ser convexo nem g precisam ser lineares para que as condições KKT sejam necessárias no melhor dos casos. (3) Você precisa de condições especiais (por exemplo, problema convexo onde a condição Slater se mantém) para que as condições KKT sejam consideradas condições suficientes para um ótimo. fg
Matthew Gunn
2
A idéia básica da condição de folga complementar (ou seja, que g ( x ) 0 é uma restrição) é que, se a restrição for folga (ou seja, g ( x ) < 0 ) no x ideal , então a penalidade λ para apertar a restrição é 0. E se houver uma penalidade positiva λ para apertar a restrição, a restrição deve ser vinculativa (ou seja, g ( x ) = 0λg(x)=0g(x)0g(x)<0xλλg(x)=0) Se o tráfego estiver fluindo sem problemas, o pedágio da ponte para outro carro é zero. E se o pedágio da ponte λ > 0 , a ponte deve estar no limite de capacidade. λλ>0
Matthew Gunn
1
O teorema básico da KKT diz que, se as condições da KKT não forem satisfeitas no ponto , o ponto x não será o ideal. As condições KKT são necessárias para um ótimo, mas não suficiente. (Por exemplo, se a função tiver pontos de sela, mínimos locais etc ... as condições KKT podem ser satisfeitas, mas o ponto não é o ideal!) Para certas classes de problemas (por exemplo, problema convexo onde a condição de Slater se mantém), o KKT condições se tornam condições suficientes . xx
Matthew Gunn

Respostas:

8

A idéia básica das condições KKT como condições necessárias para um ótimo é que, se elas não se mantiverem em um ponto viável , existe uma direção δ que melhorará o objetivo f sem aumentar (e, portanto, possivelmente violar) as restrições. (Se as condições KKT não se mantiverem em x , x não pode ser o ideal, portanto, as condições KKT são necessárias para que um ponto seja o ideal.)xδfxx

Imagine que você tem o problema de otimização:

minimize (over x)f(x)subject toj{1k}gj(x)0

Onde e existem k restrições.xRnk

Condições KKT e Farkas Lemma

Seja um vetor de coluna que denota o gradiente de f avaliado em x .f(x)fx

Aplicado a essa situação, Farkas Lemma afirma que, para qualquer ponto exatamente uma das seguintes afirmações é válida:xRn

  1. Existe tal que k j = 1 λ jg j ( x ) = - f ( x ) e λ 0λRkj=1kλjgj(x)=f(x)λ0
  2. Existe tal que j δ g j ( x ) 0 e δ f ( x ) < 0δRnjδgj(x)0δf(x)<0

O que isto significa? Isso significa que, para qualquer ponto viável ,:x

  • A condição (1) é mantida e as condições da KKT são atendidas.
  • A condição (2) é mantida e existe uma direção viável que melhora a função objetiva f sem aumentar as restrições g j . (por exemplo, você pode melhorar f movendo de x para x + ϵ δ )δfgjfxx+ϵδ

A condição (1) afirma que existem multiplicadores não negativos modo que as condições KKT são satisfeitas no ponto x . (Geometricamente, diz que o - f está no cone convexo definido pelos gradientes das restrições.)λxf

A condição (2) afirma que no ponto , existe uma direção δ para se mover (localmente) de modo que:xδ

  • Mover na direção reduz a função objetivo (porque o produto escalar de f ( x ) e δ é menor que zero).δf(x)δ
  • Mover na direção não aumenta o valor das restrições (porque o produto escalar de g j ( x ) e δ é menor ou igual a zero para todas as restrições j ).δgj(x)δj

(Geometricamente, a direção viável define um hiperplano de separação entre o vetor - f ( x ) e o cone convexo definido pelos vetores g j ( x ) .)δf(x)gj(x)

(Nota: para mapear esse em Farkas Lema , definir matriz )A=[g1,g2,,gk]

Este argumento fornece a necessidade (mas não a suficiência) das condições KKT em um nível ótimo. Se as condições da KKT não forem atendidas (e as qualificações de restrição forem atendidas), é possível melhorar o objetivo sem violar as restrições.

O papel das qualificações de restrição

O que pode dar errado? Você pode obter situações degeneradas em que os gradientes das restrições não descrevem com precisão as direções possíveis para a mudança.

Há uma infinidade de qualificações de restrição diferentes para escolher, que permitirão que o argumento acima funcione.

A interpretação min, max (imho a mais intuitiva)

Formar o Lagrangiano

L(x,λ)=f(x)+j=1kλjgj(x)

fgjLλi

A solução para o problema de otimização original é equivalente a:

minxmaxλL(x,λ)

Isso é:

  1. xL
  2. λx

g2λ2

Dualidade fraca

f(x,y)

x^,y^minxf(x,y^)f(x^,y^)maxyf(x^,y)

Desde que detém para qualquer x e y é também afirma que: máx y min x f ( xx^y^

maxyminxf(x,y)minxmaxyf(x,y)

Na configuração de Langrian, este resultado que maxλminxL(x,λ)minxmaxλL(x,λ)

maxλminxL(x,λ)

Dualidade forte

Sob certas condições especiais (por exemplo, problema convexo onde a condição Slater se mantém), você tem uma dualidade forte (ou seja, a propriedade do ponto de sela).

maxλminxL(x,λ)=minxmaxλL(x,λ)

Este belo resultado implica que você pode reverter a ordem do problema.

  1. λ

  2. xL

λ

Matthew Gunn
fonte
Aprecie as informações e os links para preencher as lacunas de entendimento. Permita-me confirmar. A condição (1) significa que KKT diz que para um ponto X ser uma solução, ele precisa satisfazer λ * g (X) = 0, λ> = 0, e o comprimento do gradiente de g (X) é λ vezes de a de f (X), caso contrário, encontraremos o gradiente da direção dos pontos de f (X) onde f (X ') menor pode ser encontrado?
mon
3
A condição slater é (apenas) uma qualificação de restrição que pode ser aplicada a problemas de otimização convexos, ou seja, torna a KKT necessária. A convexidade torna a KKT suficiente. Portanto, a condição Slater para um problema de otimização convexa, em que a função e as restrições objetivas são convexas e continuamente diferenciáveis, torna a KKT necessária e suficiente para o mínimo global. A condição slater é que existe pelo menos um ponto possível (isto é, satisfazer todas as restrições) que está no interior estrito de todas as restrições não lineares (qualquer coisa ocorre com restrições lineares, desde que possível).
Mark L. Stone
5

f (x) ser convexo é necessário para que KKT seja suficiente para x ser o mínimo local. Se f (x) ou -g (x) não forem convexos, x satisfazendo KKT pode ser mínimo local, ponto de sela ou máximo local.

g (x) sendo linear, juntamente com f (x) sendo continuamente diferenciáveis, é suficiente para que as condições KKT sejam necessárias para o mínimo local. g (x) ser linear significa que a qualificação de restrição de linearidade para KKT ser necessária para o mínimo local é satisfeita. No entanto, existem outras qualificações de restrição menos restritivas que são suficientes para que as condições da KKT sejam necessárias para o mínimo local. Consulte a seção Condições de regularidade (ou qualificações de restrição) em https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions .

Se um mínimo local não tiver restrições "ativas" (portanto, no caso de apenas uma restrição de desigualdade, essa restrição não é satisfeita com a igualdade), os multiplicadores de Lagrange associados a essas restrições devem ser zero; nesse caso, a KKT reduz a condição de o gradiente do objetivo = 0. Nesse caso, existe um "custo" zero para o valor objetivo ideal de um aperto épsilon da restrição.

Mais informações :

A função e as restrições objetivas são convexas e continuamente diferenciáveis ​​implicam que a KKT é suficiente para o mínimo global.

Se a função e as restrições objetivas são continuamente diferenciáveis ​​e as restrições atendem a uma qualificação de restrição, o KKT é necessário para um mínimo local.

Se a função e as restrições objetivas são continuamente diferenciáveis, convexas e as restrições satisfazem uma qualificação de restrição, a KKT é necessária e suficiente para um mínimo global.

ZZTHZHZ

Mark L. Stone
fonte