Não consigo entender o objetivo dos pesos de amostragem de importância (IS) na reprodução priorizada (página 5) .
É mais provável que uma transição seja amostrada a partir da reprodução da experiência, quanto maior o seu "custo". Meu entendimento é que o 'IS' ajuda a abandonar sem problemas o uso da repetição priorizada depois que treinamos por tempo suficiente. Mas o que usamos em vez disso, amostragem uniforme?
Acho que não consigo perceber como cada componente desse coeficiente está afetando o resultado. Alguém poderia explicar isso em palavras?
Em seguida, é usado para amortecer o gradiente, que tentamos obter das transições.
Onde:
- é "IS"
- N é o tamanho do buffer do Experience Replay
- P (i) é a chance de selecionar a transição , dependendo de "quão gordo é seu custo".
- começa em 0 e é arrastado cada vez mais perto de 1 a cada nova época.
O meu entendimento desses parâmetros também está correto?
Editar Algum tempo depois que a resposta foi aceita, encontrei uma fonte adicional, um vídeo que pode ser útil para iniciantes - Simulações de MC: 3.5 Importance Sampling
Editar Como @avejidah disse no comentário à sua resposta " é usado para calcular a média das amostras pela probabilidade de serem amostradas" .
Para entender por que é importante, suponha que esteja fixo em 1, temos 4 amostras, cada uma com seguinte maneira:
0.1 0.2 0.3 0.4
Ou seja, a primeira entrada tem 10% de escolha, a segunda é 20% etc. Agora, invertendo-as, obtemos:
10 5 3.333 2.5
Média de (que no nosso caso é ) obtemos:
2.5 1.25 0.8325 0.625 ...which would add up to '5.21'
Como podemos ver, eles estão muito mais próximos de zero do que as versões simplesmente invertidas ( ). Isso significa que o gradiente da nossa rede não será tão ampliado, resultando em muito menos variação à medida que treinamos nossa rede.
Portanto, sem esse , tivemos a sorte de selecionar a amostra menos provável ( ), o gradiente seria escalado 10 vezes. Seria ainda pior com valores menores, por exemplo, chance , se nossa repetição da experiência tiver muitos milhares de entradas, o que é bastante comum.
Tenho uma dúvida. Como papel PER,
Portanto, o fator 1 / N não se torna ineficaz? por exemplo, considere a última amostra,
tão,
normalizando,
Por favor, ajude-me se meu entendimento estiver errado.
fonte