Objetivo
Confirme se o entendimento da KKT está correto ou não. Procure mais explicações e confirmações na KKT.
fundo
Tentando entender as condições KKT, especialmente a complementar, que sempre aparece do nada nos artigos SVM. Não preciso de uma lista de fórmulas abstratas, mas de uma explicação concreta, intuitiva e gráfica.
Questão
Se P, que minimiza a função de custo f (X), estiver dentro da restrição (g (P)> = 0), é a solução. Parece que a KKT não é relevante neste caso.
Parece que a KKT diz que se P não estiver dentro da restrição, a solução X deve satisfazer abaixo na figura. É o KKT ou sinto falta de outros aspectos importantes?
Outros esclarecimentos
- F (x) deve ser convexo para a KKT aplicar?
- G (x) deve ser linear para a KKT aplicar?
- Λ deve ser necessário em λ * g (X) = 0? Por que g (X) = 0 ou g (Xi) = 0 não é suficiente?
Referências
- Condição KKT do Multiplicador de Lagrange
- Todo ponto de calha no SVM tem multiplicador positivo?
- http://fnorio.com/0136Lagrange_method_of_undetermined_multipliers/Lagrange_method_of_undetermined_multipliers.html
Atualização 1
Obrigado pelas respostas, mas ainda lutamos para entender. Concentre-se apenas na necessidade aqui:
A condição (2) na resposta de Matthew Gunn sobre o ponto não ótimo (no círculo verde) e o KKT não será satisfeita lá? E o ponto seria identificado olhando Hessian como na resposta de Mark L. Stone?
Suponho que outra situação seja pontos de sela, mas o mesmo se aplica?
Respostas:
A idéia básica das condições KKT como condições necessárias para um ótimo é que, se elas não se mantiverem em um ponto viável , existe uma direção δ que melhorará o objetivo f sem aumentar (e, portanto, possivelmente violar) as restrições. (Se as condições KKT não se mantiverem em x , x não pode ser o ideal, portanto, as condições KKT são necessárias para que um ponto seja o ideal.)x δ f x x
Imagine que você tem o problema de otimização:
Onde e existem k restrições.x∈Rn k
Condições KKT e Farkas Lemma
Seja um vetor de coluna que denota o gradiente de f avaliado em x .∇f(x) f x
Aplicado a essa situação, Farkas Lemma afirma que, para qualquer ponto exatamente uma das seguintes afirmações é válida:x∈Rn
O que isto significa? Isso significa que, para qualquer ponto viável ,:x
A condição (1) afirma que existem multiplicadores não negativos modo que as condições KKT são satisfeitas no ponto x . (Geometricamente, diz que o - ∇ f está no cone convexo definido pelos gradientes das restrições.)λ x −∇f
A condição (2) afirma que no ponto , existe uma direção δ para se mover (localmente) de modo que:x δ
(Geometricamente, a direção viável define um hiperplano de separação entre o vetor - ∇ f ( x ) e o cone convexo definido pelos vetores ∇ g j ( x ) .)δ −∇f(x) ∇gj(x)
(Nota: para mapear esse em Farkas Lema , definir matriz )A=[∇g1,∇g2,…,∇gk]
Este argumento fornece a necessidade (mas não a suficiência) das condições KKT em um nível ótimo. Se as condições da KKT não forem atendidas (e as qualificações de restrição forem atendidas), é possível melhorar o objetivo sem violar as restrições.
O papel das qualificações de restrição
O que pode dar errado? Você pode obter situações degeneradas em que os gradientes das restrições não descrevem com precisão as direções possíveis para a mudança.
Há uma infinidade de qualificações de restrição diferentes para escolher, que permitirão que o argumento acima funcione.
A interpretação min, max (imho a mais intuitiva)
Formar o Lagrangiano
A solução para o problema de otimização original é equivalente a:
Isso é:
Dualidade fraca
Desde que detém para qualquer x e y é também afirma que: máx y min x f ( xx^ y^
Na configuração de Langrian, este resultado quemaxλminxL(x,λ)≤minxmaxλL(x,λ)
Dualidade forte
Sob certas condições especiais (por exemplo, problema convexo onde a condição Slater se mantém), você tem uma dualidade forte (ou seja, a propriedade do ponto de sela).
Este belo resultado implica que você pode reverter a ordem do problema.
fonte
f (x) ser convexo é necessário para que KKT seja suficiente para x ser o mínimo local. Se f (x) ou -g (x) não forem convexos, x satisfazendo KKT pode ser mínimo local, ponto de sela ou máximo local.
g (x) sendo linear, juntamente com f (x) sendo continuamente diferenciáveis, é suficiente para que as condições KKT sejam necessárias para o mínimo local. g (x) ser linear significa que a qualificação de restrição de linearidade para KKT ser necessária para o mínimo local é satisfeita. No entanto, existem outras qualificações de restrição menos restritivas que são suficientes para que as condições da KKT sejam necessárias para o mínimo local. Consulte a seção Condições de regularidade (ou qualificações de restrição) em https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions .
Se um mínimo local não tiver restrições "ativas" (portanto, no caso de apenas uma restrição de desigualdade, essa restrição não é satisfeita com a igualdade), os multiplicadores de Lagrange associados a essas restrições devem ser zero; nesse caso, a KKT reduz a condição de o gradiente do objetivo = 0. Nesse caso, existe um "custo" zero para o valor objetivo ideal de um aperto épsilon da restrição.
Mais informações :
A função e as restrições objetivas são convexas e continuamente diferenciáveis implicam que a KKT é suficiente para o mínimo global.
Se a função e as restrições objetivas são continuamente diferenciáveis e as restrições atendem a uma qualificação de restrição, o KKT é necessário para um mínimo local.
Se a função e as restrições objetivas são continuamente diferenciáveis, convexas e as restrições satisfazem uma qualificação de restrição, a KKT é necessária e suficiente para um mínimo global.
fonte