Distância Kullback – Leibler vs Kolmogorov-Smirnov

37

Percebo que existem muitas diferenças formais entre as medidas de distância Kullback – Leibler vs Kolmogorov-Smirnov. No entanto, ambos são usados ​​para medir a distância entre distribuições.

  • Existe uma situação típica em que um deve ser usado em vez do outro?
  • Qual é a justificativa para fazer isso?
Greg
fonte
Uma questão relacionada: stats.stackexchange.com/questions/4/…
GaBorgulya

Respostas:

23

A divergência KL é normalmente usada em configurações teóricas da informação, ou mesmo configurações bayesianas, para medir a mudança de informações entre distribuições antes e depois de aplicar alguma inferência, por exemplo. Não é uma distância no sentido típico (métrico), devido à falta de simetria e desigualdade de triângulo, e por isso é usado em lugares onde a direcionalidade é significativa.

A distância KS é normalmente usada no contexto de um teste não paramétrico. De fato, raramente o vi usado como uma "distância entre distribuições" genérica, onde a distância , a distância Jensen-Shannon e outras distâncias são mais comuns.1 1

Suresh Venkatasubramanian
fonte
5
X1 1,X2,...p0 0p1 1Tn=n-1 1Eu=1 1nregistro(p1 1(XEu)/p0 0(XEu))Tnp0 0Tn-D(p0 0||p1 1)p1 1TnD(p1 1||p0 0)D(||)Tn>0 0p0 0
De fato. esse é um excelente exemplo. E, de fato, a maioria das versões gerais dos limites da cauda de Chernoff-Hoeffding usam a divergência KL.
precisa saber é o seguinte
2

Outra maneira de afirmar a mesma coisa que a resposta anterior em termos mais leigos:

Divergência KL - Na verdade, fornece uma medida de quão grande é a diferença entre duas distribuições uma da outra. Conforme mencionado na resposta anterior, essa medida não é uma métrica de distância apropriada, pois não é simétrica. Ou seja, a distância entre a distribuição A e B é um valor diferente da distância entre a distribuição B e A.

Teste de Kolmogorov-Smirnov - Essa é uma métrica de avaliação que analisa a maior separação entre a distribuição cumulativa de uma distribuição de teste em relação a uma distribuição de referência. Além disso, você pode usar essa métrica como um escore z na distribuição Kolmogorov para executar um teste de hipótese sobre se a distribuição de teste é a mesma distribuição que a referência. Essa métrica pode ser usada como uma função de distância, pois é simétrica. Ou seja, a maior separação entre CDF de A e CDF de B é igual à maior separação entre CDF de B e CDF de A.

SriK
fonte