Eu tenho dois conjuntos de dados (dados de origem e destino) que seguem a distribuição diferente. Estou usando o MMD - que é uma distribuição de distância não paramétrica - para calcular a distribuição marginal entre os dados de origem e de destino.
dados de origem, Xs
dados de destino, Xt
adaptação Matrix A
* Dados projetados, Zs = A '* Xs e Zt = A' Xt
* MMD => Distância (P (Xs), P (Xt)) = | média (A'Xs) - média (A ' Xt) |
Isso significa: a distância da distribuição entre os dados de origem e destino no espaço original é equivalente à distância entre os meios de dados projetados de origem e destino no espaço incorporado.
Eu tenho uma pergunta sobre o conceito de MMD.
Na fórmula MMD, por que, com a distância computada no espaço latente, podemos medir a distância da distribuição no espaço original?
obrigado
Respostas:
Pode ajudar a fornecer um pouco mais de uma visão geral do MMD.
Em geral, o MMD é definido pela idéia de representar distâncias entre distribuições como distâncias entre incorporamentos médios de recursos. Ou seja, dizer que temos distribuiçõesP e Q mais de um conjunto X . O MMD é definido por um mapa de características φ : X→ H , onde H é o que é chamado de espaço Hilbert do kernel em reprodução. Em geral, o MMD é
MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Como um exemplo, podemos terX=H=Rd e φ(x)=x . Nesse caso:
MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
de modo que este é apenas o MMD distância entre os meios das duas distribuições. Distribuições correspondentes como essa corresponderão a seus meios, embora possam diferir em sua variação ou de outras maneiras.
Atualização: aqui é de onde vem o "máximo" no nome.
fonte
Aqui está como eu interpretei o MMD. Duas distribuições são semelhantes se seus momentos forem semelhantes. Aplicando um kernel, posso transformar a variável de modo que todos os momentos (primeiro, segundo, terceiro etc.) sejam computados. No espaço latente, posso calcular a diferença entre os momentos e calculá-la. Isso fornece uma medida da semelhança / dissimilaridade entre os conjuntos de dados.
fonte