Qual é a diferença prática entre a métrica de Wasserstein e a divergência de Kullback-Leibler ? A métrica de Wasserstein também é chamada de distância do motor da Terra .
Da Wikipedia:
A métrica de Wasserstein (ou Vaserstein) é uma função de distância definida entre distribuições de probabilidade em um determinado espaço métrico M.
e
A divergência de Kullback-Leibler é uma medida de como uma distribuição de probabilidade diverge de uma segunda distribuição de probabilidade esperada.
Vi o KL ser usado em implementações de aprendizado de máquina, mas recentemente me deparei com a métrica de Wasserstein. Existe uma boa orientação sobre quando usar um ou outro?
(Não tenho reputação suficiente para criar uma nova tag com Wasserstein
ou Earth mover's distance
.)
fonte
Respostas:
Ao considerar as vantagens da métrica de Wasserstein em comparação com a divergência de KL, o mais óbvio é que W é uma métrica, enquanto a divergência de KL não é, uma vez que KL não é simétrica (isto é, em geral) e não satisfaz a desigualdade do triângulo (ou seja, D K L ( R | | P ) ≤ D K L ( Q | | P ) + D KDKeu( P| | Q)≠ DKeu( Q | | P) não se aplica em geral).DKeu( R | | P) ≤ DKeu( Q | | P) + DKeu( R | | Q )
Quanto à diferença prática, uma das mais importantes é que, diferentemente da KL (e de muitas outras medidas), Wasserstein leva em consideração o espaço métrico e o que isso significa em termos menos abstratos talvez seja melhor explicado por um exemplo (sinta-se à vontade para pular para a figura, código apenas para produzi-lo):
Aqui, as medidas entre as distribuições de vermelho e azul são as mesmas para a divergência de KL, enquanto a distância de Wasserstein mede o trabalho necessário para transportar a massa de probabilidade do estado vermelho para o estado azul usando o eixo x como uma “estrada”. Essa medida é obviamente maior quanto maior a distância da massa probabilística (daí a distância do motor da terra). Então, qual você deseja usar depende da sua área de aplicação e do que você deseja medir. Como nota, em vez da divergência de KL, também existem outras opções, como a distância de Jensen-Shannon, que são métricas adequadas.
fonte
A métrica de Wasserstein geralmente aparece em problemas ideais de transporte, onde o objetivo é mover as coisas de uma determinada configuração para uma configuração desejada no custo mínimo ou distância mínima. O Kullback-Leibler (KL) é uma divergência (não uma métrica) e aparece frequentemente em estatística, aprendizado de máquina e teoria da informação.
Além disso, a métrica de Wasserstein não exige que ambas as medidas estejam no mesmo espaço de probabilidade, enquanto a divergência KL exige que ambas as medidas sejam definidas no mesmo espaço de probabilidade.
fonte
A métrica de Wasserstein é útil na validação de modelos, pois suas unidades são as da própria resposta. Por exemplo, se você estiver comparando duas representações estocásticas do mesmo sistema (por exemplo, um modelo de ordem reduzida),P e Q , e a resposta são unidades de deslocamento, a métrica de Wasserstein também está em unidades de deslocamento. Se você reduzisse sua representação estocástica a um determinístico, o CDF de cada distribuição é uma função de etapa. A métrica de Wasserstein é a diferença dos valores.
Eu acho essa propriedade uma extensão muito natural para falar sobre a diferença absoluta entre duas variáveis aleatórias
fonte