Estou lendo Por que o Momentum Really Works , um post do novo diário de destilação. Parafraseando as principais equações que levam à parte que me confunde, o post descreve a intuição em mais detalhes.
O algoritmo de descida de gradiente é dado pelo seguinte processo iterativo
A descida de gradiente com momento é dada adicionando "memória" à descida, isto é descrito pelo par de equações:
Na próxima seção "Primeiros passos: descida do gradiente", o autor considera uma função quadrática convexa
Se usarmos a descida gradiente, iteraremos para esta solução ideal da seguinte maneira
O artigo continua dizendo: "Existe um espaço muito natural para ver a descida gradiente, onde todas as dimensões agem independentemente - os autovetores de ". Acho que isso faz sentido, embora minha intuição seja meio confusa.
Toda matriz simétrica tem uma decomposição de autovalor em que
Onde e é o vetor com os vetores próprios correspondentes como colunas (certo?).
Esta próxima parte é onde eu não entendo o que está acontecendo:
Se fizermos uma mudança de base, , as iterações se separam, tornando-se:
Voltando ao nosso espaço original , nós podemos ver isso
O que está acontecendo aqui? Onde está a motivação de tomarno eigendomain? O que é? Por que agora estamos olhando para elementos inviduais do vetor? Eu tentei seguir as caculações, mas depende de o que depende , que pensei que estávamos tentando eliminar. Minha pergunta é: alguém pode expandir esses poucos passos com alguma intuição e cálculos? Obrigado.
Eu li o mesmo artigo, fiquei preso no mesmo lugar e trabalhei com a ajuda da resposta de galoosh33 .
Eu simplesmente não achei óbvio o passo:
Portanto, para aqueles que não querem trabalhar com a álgebra e não vêem imediatamente, como nos livramosb , é de substituição Wk= Qxk+W∗ e W∗=UMA- 1b e o fato de os autovetores serem ortogonais Q- 1=QT .
fonte
Fornecerei alguns comentários no idioma do aprendizado de máquina que, com sorte, o levarão a uma conclusão lógica útil.
Primeiro, minimizar esse objetivo quadrático é como resolver um problema dos mínimos quadrados (se isso não for óbvio, tente prová-lo como um exercício). Segundo, para qualquer problema de mínimos quadrados, se os recursos são ortogonais, estimar os coeficientes de forma separada ou sequencial (como fazer exatamente uma rodada de descida de coordenadas) é equivalente a estimar em conjunto. (Se isso não for óbvio, suponha que os recursos sejam ortogonais. Você vê issoUMA deve ser diagonal? Isso significa que cada entrada da solução não depende das outras).
Então agora a pergunta é: como podemos resolver o mesmo problema, mas com uma matriz diagonal no lugar deUMA ? Terceiro, oℓ2 A norma é invariante ortogonalmente; portanto, se você esquerda ou direita multiplica o que estiver dentro da norma por uma matriz ortogonal (que é interpretada como uma rotação), você pode simplesmente resolver esse problema e depois recuperar a transformação ortogonal no final. Desde aUMA é simétrico positivo semi-definido, podemos obter essas matrizes ortogonais a partir da decomposição do autovalor de UMA (também conhecido por "diagonalizando" UMA )
Voltar às estatísticas: Esse processo às vezes é chamado de clareamento ou pré-clareamento, embora eu acredite que haja uma falta de concordância quanto ao uso desse termo.
Coloque de forma simples e vaga, no espaço próprio daUMA , as colunas / linhas de UMA pode ser visto como informações totalmente separadas e não relacionadas.
fonte