Um modelo de P (Y | X) pode ser treinado por descida de gradiente estocástico a partir de amostras não-iid de P (X) e de amostras iid de P (Y | X)?

10

Ao treinar um modelo parametrizado (por exemplo, para maximizar a probabilidade) por meio de descida estocástica do gradiente em alguns conjuntos de dados, geralmente é assumido que as amostras de treinamento são extraídas da distribuição de dados de treinamento. Portanto, se o objetivo é modelar uma distribuição conjunta , cada amostra de treinamento deve ser extraída da distribuição.P(X,Y)(xi,yi)

Se, em vez disso, o objetivo é modelar uma distribuição condicional , como o requisito iid é alterado?P(Y|X)

  1. Ainda devemos extrair cada amostra da distribuição conjunta?(xi,yi)
  2. Devemos desenhar iid de , depois desenhar iid de ?xiP(X)yiP(Y|X)
  3. Podemos desenhar não iid de (por exemplo, correlacionado ao longo do tempo), e depois desenhar iid de ?xiP(X)yiP(Y|X)

Você pode comentar sobre a validade dessas três abordagens para a descida do gradiente estocástico? (Ou me ajude a reformular a pergunta, se necessário.)

Eu gostaria de fazer o # 3, se possível. Meu aplicativo está no aprendizado por reforço, onde estou usando um modelo condicional parametrizado como uma política de controle. A sequência de estados é altamente correlacionada, mas as ações são amostradas iid de uma política estocástica condicionada ao estado. As amostras resultantes (ou um subconjunto delas) são usadas para treinar a política. (Em outras palavras, imagine executar uma política de controle por um longo período em algum ambiente, reunindo um conjunto de dados de amostras de estado / ação. Mesmo que os estados sejam correlacionados ao longo do tempo, as ações são geradas independentemente, condicionadas ao estado.) Isso é um pouco semelhante à situação neste artigo .xiyi(xi,yi)

Encontrei um artigo, Ryabko, 2006, " Reconhecimento de padrões para dados condicionalmente independentes ", que a princípio parecia relevante; no entanto, a situação é inversa do que eu preciso, onde (o rótulo / categoria / ação) pode ser extraído não iid de , e (o objeto / padrão / estado) é extraído iid de .yiP(Y)xiP(X|Y)

Atualização: Dois artigos ( aqui e aqui ) mencionados no documento Ryabko parecem relevantes aqui. Eles assumem que o vem de um processo arbitrário (por exemplo, não iid, possivelmente não estacionário). Eles mostram que os estimadores do vizinho mais próximo e do kernel são consistentes nesse caso. Mas estou mais interessado em saber se a estimativa baseada na descida do gradiente estocástico é válida nessa situação.xi

Tyler Streeter
fonte
11
Talvez esteja faltando alguma coisa e não tenha lido o artigo, mas: você está desenhando non-iid de e depois amostrando iid de . Ryabko (2006) está desenhando non-iid de e depois amostrando iid de . Estes parecem os mesmos até mudar o nome. Há algo fundamentalmente diferente sobre os objetos e que faz isso não a mesma situação? xiP(X)yiP(YX)yiP(Y)xiP(XY)xy
quer
@Dougal: A diferença é que os modelos de distribuição condicional, como campos aleatórios condicionais, tratam e (as "entradas" e "saídas") de maneira diferente ... eles modelam apenas uma direção ( mas não ). XYP(Y|X)P(X|Y)
Tyler Streeter
2
Eu consideraria a seguinte analogia neste caso. Suponha que e são duas séries temporais correlacionadas (correlação no tempo). Gostaríamos de descobrir uma função , que é equivalente a encontrar . Se , que é o resíduo, é IID (portanto estacionário e não correlacionado), o procedimento de estimativa converge sem viés. O processamento básico da série temporal em ordem cronológica ou qualquer ordem aleatória não deve importar em um procedimento MLE, desde que a probabilidade condicional seja especificada corretamente e os resíduos sejam IID. YiXiYi=f(Xi;θ)P(Yi|Xi;θ)P(Yi|Xi;θ)
Cagdas Ozgenc #

Respostas:

1

Eu acho que você poderia fazer 2 ou 3. No entanto, o problema com 3 é que, ao permitir distribuições arbitrárias para X, você inclui distribuições que teriam toda ou quase toda a probabilidade concentrada, é um pequeno intervalo no espaço x. Isso prejudicaria a estimativa geral de P (Y | X) porque você teria poucos ou nenhum dado para determinados valores de X.

Michael R. Chernick
fonte
Você está dizendo que, com a abordagem nº 3, eu obteria um resultado imparcial com variação potencialmente alta?
Tyler Streeter
Se não houver dados no ponto x ou próximo a ele, você não poderá nem estimar P (Y | X = x ) e, se houver apenas alguns pontos, a variação da estimativa será grande. 11
Michael R. Chernick
Sim, isso faz sentido que a variação possa ser grande. Acho que minha principal preocupação é se o P estimado (Y | X) será tendencioso.
Tyler Streeter
Não discutimos uma estimativa pontual. Se você possui estimativas imparciais para P (X), P (Y) e P (X | Y) e as conecte à fórmula P (Y | X) = P (X | Y) P (Y) / P (X) você receberá uma estimativa tendenciosa.
Michael R. Chernick
Devo enfatizar que estou falando sobre estimar P (Y | X) por descida de gradiente estocástico, caso em que a ordem das amostras de treinamento pode influenciar a rapidez ou a convergência para o modelo correto. Não estou apenas usando médias de amostra, onde a ordem das amostras não importa.
Tyler Streeter