Discrepância média máxima (distribuição à distância)

15

Eu tenho dois conjuntos de dados (dados de origem e destino) que seguem a distribuição diferente. Estou usando o MMD - que é uma distribuição de distância não paramétrica - para calcular a distribuição marginal entre os dados de origem e de destino.

dados de origem, Xs

dados de destino, Xt

adaptação Matrix A

* Dados projetados, Zs = A '* Xs e Zt = A' Xt

* MMD => Distância (P (Xs), P (Xt)) = | média (A'Xs) - média (A ' Xt) |

Isso significa: a distância da distribuição entre os dados de origem e destino no espaço original é equivalente à distância entre os meios de dados projetados de origem e destino no espaço incorporado.

Eu tenho uma pergunta sobre o conceito de MMD.

Na fórmula MMD, por que, com a distância computada no espaço latente, podemos medir a distância da distribuição no espaço original?

obrigado

Mahsa
fonte
Você ainda não fez uma pergunta: apenas nos disse que fica confuso!
whuber

Respostas:

44

Pode ajudar a fornecer um pouco mais de uma visão geral do MMD.

Em geral, o MMD é definido pela idéia de representar distâncias entre distribuições como distâncias entre incorporamentos médios de recursos. Ou seja, dizer que temos distribuições P e Q mais de um conjunto X . O MMD é definido por um mapa de características φ:XH , onde H é o que é chamado de espaço Hilbert do kernel em reprodução. Em geral, o MMD é

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

Como um exemplo, podemos ter X=H=Rd e φ(x)=x . Nesse caso:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,
de modo que este é apenas o MMD distância entre os meios das duas distribuições. Distribuições correspondentes como essa corresponderão a seus meios, embora possam diferir em sua variação ou de outras maneiras.

X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA

X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

φ

k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


Atualização: aqui é de onde vem o "máximo" no nome.

φ:XHf,φ(x)H=f(x)fH

X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

f

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=gf=g/g

fH

Dougal
fonte
Obrigado pela sua explicação, fica mais claro para mim; Ainda não entendi esse conceito. No começo, você disse: "O MMD é definido pela idéia de representar distâncias entre distribuições como distâncias entre incorporamentos médios de recursos". Por que essa idéia se torna realidade?
Mahsa 5/05
"MMD é definido pela idéia de representar distâncias entre distribuições como distâncias entre incorporamentos médios de recursos". Por que essa idéia se torna realidade? Está relacionada ao espaço RKHS?
Mahsa 5/05
11
É apenas uma definição: você pode comparar distribuições comparando seus meios. Ou, você pode comparar distribuições comparando alguma transformação de seus meios; ou comparando seus meios e variações; ou comparando a média de qualquer outro mapa de recursos, incluindo um em um RKHS.
Dougal
Obrigado pela sua resposta; Vou ler mais sobre o mapa de recursos do RKHS; Eu estava pensando, por que a distância definida pelo MMD no mapa de recursos do RKHS? Quero dizer, qual é o benefício do RKHS na definição de distância do MMD?
Mahsa 7/05
A explicação aqui é focada na "Discrepância média" em oposição a "Discrepância média máxima". Alguém poderia elaborar a parte "Maximização"?
Jiang Xiang
5

Aqui está como eu interpretei o MMD. Duas distribuições são semelhantes se seus momentos forem semelhantes. Aplicando um kernel, posso transformar a variável de modo que todos os momentos (primeiro, segundo, terceiro etc.) sejam computados. No espaço latente, posso calcular a diferença entre os momentos e calculá-la. Isso fornece uma medida da semelhança / dissimilaridade entre os conjuntos de dados.

rsambasivan
fonte