Conheço a definição de matriz simétrica positiva definida (SPD), mas quero entender mais.
Por que eles são tão importantes, intuitivamente?
Aqui está o que eu sei. O quê mais?
Para um dado dado, a matriz de co-variância é SPD. Matriz de co-variância é uma métrica importante; consulte este excelente post para obter uma explicação intuitiva.
A forma quadrática é convexa, se for SPD. A convexidade é uma propriedade interessante para uma função que pode garantir que a solução local seja global. Para problemas convexos, existem muitos bons algoritmos a serem resolvidos, mas não para problemas que não sejam de covex.
Quando é SPD, a solução de otimização para a forma quadrática solução para o sistema linear são as mesmas. Para que possamos executar conversões entre dois problemas clássicos. Isso é importante porque nos permite usar truques descobertos em um domínio no outro. Por exemplo, podemos usar o método do gradiente conjugado para resolver um sistema linear.
Existem muitos bons algoritmos (rápidos, estáveis numéricos) que funcionam melhor para uma matriz SPD, como a decomposição de Cholesky.
EDIT: Não estou tentando perguntar as identidades da matriz SPD, mas a intuição por trás da propriedade para mostrar a importância. Por exemplo, como mencionado por Matthew Drury, se uma matriz é SPD, os autovalores são todos números reais positivos, mas por que todos são positivos. @ Matthew Drury teve uma ótima resposta para fluir e era isso que eu estava procurando.
Respostas:
Uma matriz simétrica (real) possui um conjunto completo de vetores próprios ortogonais para os quais os valores próprios correspondentes são todos números reais. Para matrizes não simétricas, isso pode falhar. Por exemplo, uma rotação no espaço bidimensional não possui vetor próprio ou valores próprios nos números reais; você deve passar para um espaço vetorial sobre os números complexos para encontrá-los.
Se a matriz é adicionalmente positiva, então esses valores próprios são todos números reais positivos. Esse fato é muito mais fácil que o primeiro, pois se é um vetor próprio com comprimento unitário e λ o valor próprio correspondente,v λ
onde a última igualdade usa a definição de definição positiva.
A importância aqui para a intuição é que os autovetores e autovalores de uma transformação linear descrevem o sistema de coordenadas em que a transformação é mais facilmente compreendida. Uma transformação linear pode ser muito difícil de entender em uma base "natural", como o sistema de coordenadas padrão, mas cada um vem com uma base "preferida" de vetores próprios, nos quais a transformação atua como uma escala em todas as direções. Isso facilita muito a compreensão da geometria da transformação.
Por exemplo, o segundo teste derivado para o extremo local de uma função é frequentemente administrada como uma série de condições que envolvem uma entrada misteriosa na segunda matriz derivado e alguns determinantes. De fato, essas condições simplesmente codificam a seguinte observação geométrica:R2→R
Você pode entender isso com o raciocínio geométrico acima em uma base própria. A primeira derivada em um ponto crítico desaparece, portanto as taxas de mudança da função aqui são controladas pela segunda derivada. Agora podemos raciocinar geometricamente
Como os vetores próprios abrangem todo o espaço, qualquer outra direção é uma combinação linear de direções próprias, de modo que as taxas de mudança nessas direções são combinações lineares das taxas de mudança nas direções próprias. Portanto, de fato, isso vale para todas as direções (isso é mais ou menos o que significa para uma função definida em um espaço dimensional mais alto ser diferenciável). Agora, se você desenhar uma pequena figura na sua cabeça, isso faz muito sentido com algo que é bastante misterioso nos textos de cálculo para iniciantes.
Isso se aplica diretamente a um dos seus marcadores
A matriz das segundas derivadas é toda parte, que é simétrica positiva definida. Geometricamente, isso significa que, se nos afastarmos em qualquer direção eigen (e, portanto, em qualquer direção, porque qualquer outra é uma combinação linear de direções eigen), a própria função se dobrará acima do plano tangente. Isso significa que toda a superfície é convexa.A
fonte
Você encontrará alguma intuição nas várias maneiras elementares de mostrar que os autovalores de uma matriz simétrica real são reais: /mathpro/118626/real-symmetric-matrix-has-real-eigenvalues-elementary- prova / 118640 # 118640
Em particular, a forma quadrática ocorre naturalmente no quociente de Rayleigh e as matrizes simétricas fornecem a maneira mais natural de exibir uma grande família de matrizes cujos valores próprios são reais. Veja o teorema de Courant minimax, por exemplo: https://en.wikipedia.org/wiki/Courant_minimax_principlexTAx
Além disso, as matrizes simétricas definidos estritamente positivos são o único conjunto de matrizes, que podem definir um produto interno não-trivial, juntamente com uma norma induzida: . Isso ocorre porque, por definição, para vetores reais x , y d ( x , y ) = d ( y , x ) para todos os x , y e ″ x ″ 2 =d(x,y)=⟨x,Ay⟩=xTAy x,y d(x,y)=d(y,x) x,y para x ≠ 0 . Dessa maneira, matrizes definidas positivas simétricas podem ser vistas como candidatas ideais para transformações de coordenadas.∥x∥2=xTAx>0 x≠0
Essa última propriedade é absolutamente essencial na área de máquinas de vetores de suporte, especificamente métodos do kernel e o truque do kernel , onde o kernel deve ser positivo simétrico para induzir o produto interno correto. De fato, o teorema de Mercer generaliza as propriedades intuitivas de matrizes simétricas para espaços funcionais.
fonte
Com relação à otimização (porque você marcou sua pergunta com a tag de otimização), as matrizes SPD são extremamente importantes por um motivo simples - um SPD Hessian garante que a direção da pesquisa é uma direção descendente. Considere a derivação do método de Newton para otimização irrestrita. Primeiro, formamos a expansão de Taylor de :f(x+Δx)
Em seguida, tomamos a derivada em relação a :Δx
Finalmente, defina a derivada igual a 0 e resolva para :Δx
Supondo que é SPD, é fácil ver que Δ x é uma direção de descida porque:∇2f(x) Δx
Ao usar o método de Newton, as matrizes não-SPD Hessian são tipicamente "empurradas" para serem SPD. Existe um algoritmo interessante chamado Cholesky modificado que detecta um Hessian não-SPD, "cutuca" adequadamente na direção certa e fatora o resultado, tudo por (essencialmente) o mesmo custo que uma fatoração de Cholesky. Os métodos quase-Newton evitam esse problema forçando o Hessiano aproximado a ser SPD.
Como um aparte, sistemas simétricos indefinidos estão recebendo muita atenção nos dias de hoje. Eles surgem no contexto de métodos de pontos interiores para otimização restrita.
fonte
Geometricamente, uma matriz definida positiva define uma métrica , por exemplo, uma métrica Riemanniana, para que possamos usar imediatamente conceitos geométricos.
fonte
Já existem várias respostas que explicam por que matrizes definidas positivas simétricas são tão importantes, portanto, fornecerei uma resposta explicando por que elas não são tão importantes quanto algumas pessoas, incluindo os autores de algumas dessas respostas, pensam. Por uma questão de simplicidade, limitarei o foco às matrizes simétricas e me concentrarei nos hessianos e na otimização.
Se Deus tivesse tornado o mundo convexo, não haveria otimização convexa, apenas haveria otimização. Da mesma forma, não haveria matrizes definidas positivas (simétricas), apenas matrizes (simétricas). Mas não é esse o caso, então lide com isso.
Se um problema de programação quadrática for convexo, ele poderá ser resolvido "facilmente". Se não for convexo, ainda é possível encontrar um ótimo global usando métodos branch e bound (mas pode demorar mais e mais memória).
Se um método de Newton é usado para otimização e o Hessian em alguma iteração é indefinido, não é necessário "finagle" para uma definição positiva. Se estiver usando uma pesquisa de linha, as direções de curvatura negativa podem ser encontradas e a pesquisa de linha executada ao longo delas, e se estiver usando uma região de confiança, haverá uma região de confiança pequena o suficiente para que a solução do problema da região de confiança atinja a descida.
Quanto aos métodos Quasi-Newton, o BFGS (amortecido se o problema for restrito) e o DFP mantêm uma definição positiva da aproximação Hessiana ou inversa Hessiana. Outros métodos quase-Newton, como SR1 (classificação simétrica um), não necessariamente mantêm uma definição positiva. Antes de você ficar completamente deformado com isso, essa é uma boa razão para escolher SR1 para muitos problemas - se o Hessian realmente não for definido positivamente ao longo do caminho para o ideal, forçando a aproximação Quasi-Newton a ser definida positivamente. pode resultar em uma péssima aproximação quadrática da função objetivo. Por outro lado, o método de atualização SR1 é "solto como um ganso" e pode transformar sua definição com firmeza à medida que avança.
Para problemas de otimização não-linearmente restritos, o que realmente importa não é o hessiano da função objetivo, mas o hessiano do lagrangiano. O Hessiano do Lagrangiano pode ser indefinido, mesmo no ideal (e), e de fato é apenas a projeção do Hessiano do Lagrangiano no espaço nulo do Jacobiano das restrições ativas (lineares e não-lineares) que precisam ser semi-positivas -definido no melhor. Se você modelar o Hessiano do Lagrangiano via BFGS e, assim, restringi-lo a uma definição positiva, pode ser um ajuste terrível em todos os lugares, e não funcionar bem. Por outro lado, o SR1 pode adaptar seus valores próprios ao que realmente "vê".
Há muito mais que eu poderia dizer sobre tudo isso, mas isso é suficiente para lhe dar um sabor.
Edit : O que eu escrevi 2 parágrafos acima está correto. No entanto, esqueci de salientar que isso também se aplica a problemas com restrições lineares. No caso de problemas linearmente limitados, o hessiano do lagrangiano é apenas (reduz a) o hessiano da função objetivo. Portanto, a condição de otimização de 2ª ordem para um mínimo local é que a projeção do Hessiano da função objetiva no espaço nulo do Jacobiano das restrições ativas seja semi-definida positiva. Mais notavelmente, o hessiano da função objetivo não precisa (necessariamente) ser psd no ideal, e muitas vezes não é, mesmo em problemas linearmente restritos.
fonte
Você já citou várias razões pelas quais o SPD é importante, mas ainda assim postou a pergunta. Então, parece-me que você precisa responder a essa pergunta primeiro: por que quantidades positivas são importantes?
Minha resposta é que algumas quantidades devem ser positivas para se reconciliar com nossas experiências ou modelos. Por exemplo, as distâncias entre itens no espaço devem ser positivas. As coordenadas podem ser negativas, mas as distâncias são sempre não negativas. Portanto, se você tem um conjunto de dados e algum algoritmo que o processa, é possível que você acabe com um que quebra quando você alimenta uma distância negativa nele. Então, você diz "meu algoritmo exige entradas de distância positivas o tempo todo" e não soaria como uma demanda irracional.
Portanto, matrizes de variância-covariância são semidefinidas positivas, isto é, "não-negativas" nessa analogia. O exemplo de um algoritmo que requer essa condição é a decomposição de Cholesky, é muito útil. É freqüentemente chamada de "raiz quadrada da matriz". Assim, como a raiz quadrada de um número real que requer não-negatividade, Cholesky quer matrizes não-negativas. Não encontramos essa restrição ao lidar com matrizes de covariância, porque sempre são.
Então, essa é a minha resposta utilitária. As restrições, como não negatividade ou SPD, permitem criar algoritmos de cálculo mais eficientes ou ferramentas de modelagem convenientes, disponíveis quando suas entradas satisfazem essas restrições.
fonte
Aqui estão mais duas razões que não foram mencionadas pelas quais as matrizes semidefinidas positivas são importantes:
A matriz laplaciana gráfica é diagonalmente dominante e, portanto, PSD.
A semidefinitividade positiva define uma ordem parcial no conjunto de matrizes simétricas (essa é a base da programação semidefinida).
fonte