Ao treinar um modelo parametrizado (por exemplo, para maximizar a probabilidade) por meio de descida estocástica do gradiente em alguns conjuntos de dados, geralmente é assumido que as amostras de treinamento são extraídas da distribuição de dados de treinamento. Portanto, se o objetivo é modelar uma distribuição conjunta , cada amostra de treinamento deve ser extraída da distribuição.
Se, em vez disso, o objetivo é modelar uma distribuição condicional , como o requisito iid é alterado?
- Ainda devemos extrair cada amostra da distribuição conjunta?
- Devemos desenhar iid de , depois desenhar iid de ?
- Podemos desenhar não iid de (por exemplo, correlacionado ao longo do tempo), e depois desenhar iid de ?
Você pode comentar sobre a validade dessas três abordagens para a descida do gradiente estocástico? (Ou me ajude a reformular a pergunta, se necessário.)
Eu gostaria de fazer o # 3, se possível. Meu aplicativo está no aprendizado por reforço, onde estou usando um modelo condicional parametrizado como uma política de controle. A sequência de estados é altamente correlacionada, mas as ações são amostradas iid de uma política estocástica condicionada ao estado. As amostras resultantes (ou um subconjunto delas) são usadas para treinar a política. (Em outras palavras, imagine executar uma política de controle por um longo período em algum ambiente, reunindo um conjunto de dados de amostras de estado / ação. Mesmo que os estados sejam correlacionados ao longo do tempo, as ações são geradas independentemente, condicionadas ao estado.) Isso é um pouco semelhante à situação neste artigo .
Encontrei um artigo, Ryabko, 2006, " Reconhecimento de padrões para dados condicionalmente independentes ", que a princípio parecia relevante; no entanto, a situação é inversa do que eu preciso, onde (o rótulo / categoria / ação) pode ser extraído não iid de , e (o objeto / padrão / estado) é extraído iid de .
Atualização: Dois artigos ( aqui e aqui ) mencionados no documento Ryabko parecem relevantes aqui. Eles assumem que o vem de um processo arbitrário (por exemplo, não iid, possivelmente não estacionário). Eles mostram que os estimadores do vizinho mais próximo e do kernel são consistentes nesse caso. Mas estou mais interessado em saber se a estimativa baseada na descida do gradiente estocástico é válida nessa situação.
fonte
Respostas:
Eu acho que você poderia fazer 2 ou 3. No entanto, o problema com 3 é que, ao permitir distribuições arbitrárias para X, você inclui distribuições que teriam toda ou quase toda a probabilidade concentrada, é um pequeno intervalo no espaço x. Isso prejudicaria a estimativa geral de P (Y | X) porque você teria poucos ou nenhum dado para determinados valores de X.
fonte