Motivação para a distância Kolmogorov entre distribuições

45

Existem muitas maneiras de medir quão semelhantes são as duas distribuições de probabilidade. Entre os métodos populares (em diferentes círculos) estão:

  1. a distância de Kolmogorov: a sup-distância entre as funções de distribuição;

  2. a distância Kantorovich-Rubinstein: a diferença máxima entre as expectativas em relação às duas distribuições de funções com a constante Lipschitz , que também acaba sendo a distância entre as funções de distribuição;1L1

  3. a distância delimitada de Lipschitz: como a distância KR, mas também é necessário que as funções tenham valor absoluto no máximo .1

Estes têm diferentes vantagens e desvantagens. Somente a convergência no sentido 3. corresponde, na verdade, precisamente à convergência na distribuição; convergência no sentido de 1. ou 2. é um pouco mais forte em geral. (Em particular, se com probabilidade , converge para na distribuição, mas não na distância de Kolmogorov. No entanto, se a distribuição limite for contínua, essa patologia não ocorrerá. )Xn=1n1Xn0

Do ponto de vista da probabilidade elementar ou da teoria das medidas, 1. é muito natural porque compara as probabilidades de estar em algum conjunto. Uma perspectiva probabilística mais sofisticada, por outro lado, tende a focar mais nas expectativas do que nas probabilidades. Além disso, do ponto de vista da análise funcional, distâncias como 2. ou 3., baseadas na dualidade com algum espaço funcional, são muito atraentes, porque há um grande conjunto de ferramentas matemáticas para trabalhar com essas coisas.

No entanto, minha impressão (corrija-me se estiver errado!) É que, nas estatísticas, a distância de Kolmogorov é a maneira geralmente preferida de medir a similaridade das distribuições. Posso adivinhar um motivo: se uma das distribuições é discreta com suporte finito - em particular, se é a distribuição de alguns dados do mundo real -, é fácil calcular a distância de Kolmogorov a uma distribuição de modelo. (A distância KR seria um pouco mais difícil de calcular e a distância BL provavelmente seria impossível em termos práticos.)

Portanto, minha pergunta (finalmente) é: existem outras razões, práticas ou teóricas, para favorecer a distância de Kolmogorov (ou alguma outra distância) para fins estatísticos?

Mark Meckes
fonte
1
Gosto da pergunta, talvez já exista a maior parte da resposta possível na pergunta ... você tem uma ideia do tipo de resposta / desenvolvimento que deseja?
Robin girard
1
Não muito especificamente. Eu sou bastante ignorante das estatísticas e uma das minhas razões para perguntar é saber quais critérios os estatísticos usariam para escolher entre diferentes métricas. Como já descrevi uma importante vantagem prática de 1 (você pode computá-la), estou especialmente interessado em motivações teóricas. Digamos, as informações fornecidas pelas estimativas da distância de Kolmogorov frequentemente são de uso direto em aplicativos?
MarkMeckes
Esqueci de terminar meu comentário anterior com o mais ou menos óbvio: e se sim, como?
MarkMeckes
Acabei de reler meu longo comentário acima e percebi que a última pergunta que levantei é tanto uma consideração prática quanto teórica. De qualquer forma, esse é um dos tipos de questões que eu gostaria de aprender.
MarkMeckes
Eu sei que você não pretendia ser exaustivo, mas poderia adicionar a estatística querida de Anderson (consulte en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Isso me fez lembrar de um fromo papel Jager e Wellner (veja projecteuclid.org/... ) que extands / generaliza Anderson estatística querida (e incluem, em particular, alta crítica de Tukey) ...
robin Girard

Respostas:

12

Marca,

a principal razão pela qual estou ciente do uso de KS é porque ela surge naturalmente dos teoremas de Glivenko-Cantelli em processos empíricos univariados. A única referência que eu recomendo é AWvan der Vaart "Asymptotic Statistics", cap. 19. Uma monografia mais avançada é "Fraca Convergência e Processos Empíricos", de Wellner e van der Vaart.

Eu adicionaria duas notas rápidas:

  1. outra medida de distância comumente usada em distribuições univariadas é a distância de Cramer-von Mises, que é uma distância de L ^ 2;
  2. em espaços vetoriais gerais, diferentes distâncias são empregadas; o espaço de interesse em muitos trabalhos é polonês. Uma introdução muito boa é a "convergência das medidas de probabilidade" de Billingsley.

Peço desculpas se não puder ser mais específico. Eu espero que isso ajude.

gappy
fonte
2
Duas notas rápidas em suas anotações. 1. A distância C-vM é precisamente o primo L ^ 2 das distâncias Kolmogorov (L ^ infinito) e (univariado) KR (L ^ 1) e, portanto, interpola entre elas. 2. Uma vantagem que não mencionei das distâncias KR e BL é que elas generalizam mais naturalmente para espaços dimensionais mais altos.
MarkMeckes
Em relação a 1., isso está correto. Em relação a 2. Em princípio, todas as distâncias acima podem ser transferidas para R ^ n, no entanto, não conheço testes populares não paramétricos baseados em qualquer distância. Seria interessante saber se há algum.
26410 gappy
8

Questões computacionais são o argumento mais forte que ouvi de uma maneira ou de outra. A maior vantagem da distância Kolmogorov é que é muito fácil calcular analiticamente praticamente qualquer CDF. A maioria das outras métricas de distância não tem uma expressão de forma fechada, exceto, às vezes, no caso gaussiano.

A distância de Kolmogorov de uma amostra também tem uma distribuição de amostragem conhecida, dada a CDF (acho que a maioria das outras não), que acaba sendo relacionada ao processo de Wiener. Essa é a base do teste de Kolmogorov-Smirnoff para comparar uma amostra com uma distribuição ou duas amostras entre si.

Em uma nota de análise mais funcional, a norma é boa porque (como você mencionou) basicamente define convergência uniforme. Isso deixa você com a convergência normativa implicando convergência no sentido dos pontos; assim, se você for esperto sobre como define suas seqüências de funções, poderá trabalhar dentro de um RKHS e usar todas as boas ferramentas que também fornecem.

Rico
fonte
8

Como um resumo , minha resposta é: se você tem uma expressão explícita ou consegue descobrir como a sua distância está medindo (para quais "diferenças" ela pesa)), então você pode dizer para que serve. Uma outra maneira complementar de analisar e comparar esse teste é a teoria do minimax.

No final, alguns testes serão bons para algumas alternativas e alguns para outros. Para um determinado conjunto de alternativas, em algum momento é possível mostrar se o seu teste possui propriedades ideais no pior dos casos: esta é a teoria do minimax.


Alguns detalhes

Portanto, você pode falar sobre as propriedades de dois testes diferentes, considerando o conjunto de alternativas para as quais eles são minimax (se essa alternativa existir), por exemplo (usando a palavra Donoho e Jin), comparando seu "boudary de detecção ideal" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Deixe-me ir distância a distância:

  1. A distância KS é obtida calculando-se a diferença suprema entre cdf empírico e cdf. Sendo um supremo, será altamente sensível às alternativas locais (mudança local no cdf), mas não à mudança global (pelo menos usar a distância L2 entre o cdf seria menos local (estou abrindo a porta aberta?)). No entanto, a coisa mais importante é que usa o cdf. Isso implica uma assimetria: você dá mais importância às mudanças na cauda de sua distribuição.

  2. A métrica de Wassertein (o que você quis dizer com Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric é onipresente e, portanto, difícil de comparar.

    • Para o caso específico do W2, ele foi usado em http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 e está relacionado à distância L2 ao inverso do cdf. Meu entendimento é que isso dá ainda mais peso às caudas, mas acho que você deveria ler o jornal para saber mais sobre isso.
    • Para o caso da distância L1 entre a função de densidade, isso dependerá muito de como você estima sua função de dentição a partir dos dados ... mas, caso contrário, parece ser um "teste equilibrado" que não dá importância às caudas.

Para recordar e estender o comentário que fiz, complete a resposta:

Sei que você não pretendia ser exaustivo, mas poderia adicionar a estatística querida de Anderson (consulte http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Isso me fez lembrar de um artigo de Jager e Wellner (consulte http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) que amplia / generaliza a estatística querida de Anderson (e inclui, em particular, maior crítica a Tukey). Já se demonstrou que críticas mais altas são mínimas para uma ampla gama de alternativas e o mesmo é feito por Jager e Wellner por sua extensão. Eu não acho que a propriedade minimax tenha sido mostrada para o teste de Kolmogorov. De qualquer forma, entender para qual tipo de alternativa seu teste é minimax ajuda a saber onde está a sua força, portanto, você deve ler o artigo acima.

Robin Girard
fonte
1
Sim, o que eu chamei de distância Kantorovitch-Rubinstein também é chamado de distância L ^ 1 Wasserstein ou W1. Também tem muitos outros nomes.
MarkMeckes
3
Só para esclarecer quem não conhece as distâncias de Wasserstein que lê isso e a resposta de gappy: a distância L ^ 2 Wasserstein (W2) não é a mesma que a distância de Cramer-von Mises.
MarkMeckes
4

Eu acho que você deve considerar as vantagens teóricas versus aplicadas das diferentes noções de distância. Objetos matematicamente naturais não se traduzem necessariamente em aplicação. Kolmogorov-Smirnov é o mais conhecido para aplicação e está entrincheirado nos testes de qualidade do ajuste. Suponho que uma das razões para isso é que, quando a distribuição subjacente é contínua a distribuição da estatística é independente da . Outra é que ele pode ser facilmente invertido para fornecer faixas de confiança para o CDF.FFF

Mas é frequentemente usado de uma maneira diferente, onde é estimado por , e a estatística de teste assume a forma O interesse é ver como ajusta aos dados e agir como se , mesmo que a teoria assintótica não se aplique necessariamente.FF^

supx|Fn(x)F^(x)|.
F^F^=F
vqv
fonte
3

Não posso lhe dar razões adicionais para usar o teste Kolmogorov-Smirnov. Mas, posso lhe dar uma razão importante para não usá-lo. Não se encaixa bem na cauda da distribuição. Nesse sentido, um teste de ajuste de distribuição superior é Anderson-Darling. Como segundo melhor, o teste do Chi Square é muito bom. Ambos são considerados muito superiores ao teste KS a esse respeito.

Sympa
fonte
2

Do ponto de vista da análise funcional e da teoria das medidas, as distâncias do tipo não definem conjuntos mensuráveis ​​em espaços de funções (espaços dimensionais infinitos perdem aditivo contável nas coberturas de esferas métricas). Isso desqualifica firmemente qualquer tipo de interpretação mensurável das distâncias das escolhas 2 e 3.Lp

É claro que Kolomogorov, por ser muito mais inteligente do que qualquer um de nós postando, principalmente eu, antecipava isso. O mais inteligente é que, embora a distância no teste KS seja da variedade , a própria norma uniforme não é usada para definir os conjuntos mensuráveis. Antes, os conjuntos fazem parte de uma filtragem estocástica sobre as diferenças entre as distribuições avaliadas nos valores observados; o que equivale ao problema do tempo de parada.L0

Em suma, a distância uniforme padrão da escolha 1 é preferível, porque o teste implica é equivalente ao problema do tempo de parada, que por si só produz probabilidades tratáveis ​​computacionalmente. Onde as opções 2 e 3 não podem definir subconjuntos mensuráveis ​​de funções.

Aaron Sheldon
fonte