Platôs estéreis em paisagens de treinamento de redes neurais quânticas

9

Aqui, os autores argumentam que os esforços para criar uma rede neural quântica escalável usando um conjunto de portas parametrizadas são considerados falhos para um grande número de qubits. Isso se deve ao fato de que, devido ao lema de Levy , o gradiente de uma função em espaços dimensionais altos é quase zero em todos os lugares.

Gostaria de saber se esse argumento também pode ser aplicado a outros métodos híbridos de otimização quântica clássica, como VQE (Variational Quantum Eigensolver) ou QAOA (Quantum Approximate Optimization Algorithm).

O que você acha?

asdf
fonte
"usando um conjunto de portas parametrizadas" Qual conjunto? É aleatório por acaso?
Rrtucci
O artigo foi escrito por Jarrod McClean, que também é o pioneiro do VQE. Imagino que Jarrod não acredite que o VQE seja considerado falha por um número maior de qubits. Acho que sua descrição do lema de Levy é um pouco diferente do que o artigo sugere. Você diz que "o gradiente de uma função em espaços dimensionais altos é quase zero em todos os lugares", mas o artigo apenas diz que esse é o caso no contexto particular dos QNNs descritos no artigo.
user1271772
Para elaborar um pouco sobre o meu último comentário: podemos construir uma função de alta dimensão que muda muito rapidamente em todos os lugares, não haverá um gradiente de "quase zero" em todos os lugares. A conclusão baseada no lema de Levy no artigo é para a função específica que eles estão otimizando, não para a função "qualquer" em um espaço de alta dimensão.
user1271772
11
@asdf: Depois de passar a maior parte do dia olhando para frente e para trás no jornal, finalmente cheguei a uma resposta para você. Dê uma olhada.
user1271772

Respostas:

4

Primeiro : O artigo faz referência ao Lema de Levy [ 37 ], mas você não encontrará menção ao "Lema do Levy" em [37]. Você vai achar que é chamado de "Desigualdade de Levy", que é chamado Lema de Levy no presente , que é não citada no papel que você menciona.

|Ψ(p)

Ep=Ψ(p)|H|Ψ(p)Ψ(p)|Ψ(p).

p

p1010p1012, onde os parâmetros são coeficientes dos determinantes de Slater. Sabe-se geralmente que o cenário energético não é tão plano (como seria se o gradiente fosse 0 em quase todos os lugares), mesmo quando há um trilhão de parâmetros ou mais.

H|Ψ(p)H|Ψ

user1271772
fonte