Existem muitas maneiras de medir quão semelhantes são as duas distribuições de probabilidade. Entre os métodos populares (em diferentes círculos) estão:
a distância de Kolmogorov: a sup-distância entre as funções de distribuição;
a distância Kantorovich-Rubinstein: a diferença máxima entre as expectativas em relação às duas distribuições de funções com a constante Lipschitz , que também acaba sendo a distância entre as funções de distribuição;
a distância delimitada de Lipschitz: como a distância KR, mas também é necessário que as funções tenham valor absoluto no máximo .
Estes têm diferentes vantagens e desvantagens. Somente a convergência no sentido 3. corresponde, na verdade, precisamente à convergência na distribuição; convergência no sentido de 1. ou 2. é um pouco mais forte em geral. (Em particular, se com probabilidade , converge para na distribuição, mas não na distância de Kolmogorov. No entanto, se a distribuição limite for contínua, essa patologia não ocorrerá. )
Do ponto de vista da probabilidade elementar ou da teoria das medidas, 1. é muito natural porque compara as probabilidades de estar em algum conjunto. Uma perspectiva probabilística mais sofisticada, por outro lado, tende a focar mais nas expectativas do que nas probabilidades. Além disso, do ponto de vista da análise funcional, distâncias como 2. ou 3., baseadas na dualidade com algum espaço funcional, são muito atraentes, porque há um grande conjunto de ferramentas matemáticas para trabalhar com essas coisas.
No entanto, minha impressão (corrija-me se estiver errado!) É que, nas estatísticas, a distância de Kolmogorov é a maneira geralmente preferida de medir a similaridade das distribuições. Posso adivinhar um motivo: se uma das distribuições é discreta com suporte finito - em particular, se é a distribuição de alguns dados do mundo real -, é fácil calcular a distância de Kolmogorov a uma distribuição de modelo. (A distância KR seria um pouco mais difícil de calcular e a distância BL provavelmente seria impossível em termos práticos.)
Portanto, minha pergunta (finalmente) é: existem outras razões, práticas ou teóricas, para favorecer a distância de Kolmogorov (ou alguma outra distância) para fins estatísticos?
Respostas:
Marca,
a principal razão pela qual estou ciente do uso de KS é porque ela surge naturalmente dos teoremas de Glivenko-Cantelli em processos empíricos univariados. A única referência que eu recomendo é AWvan der Vaart "Asymptotic Statistics", cap. 19. Uma monografia mais avançada é "Fraca Convergência e Processos Empíricos", de Wellner e van der Vaart.
Eu adicionaria duas notas rápidas:
Peço desculpas se não puder ser mais específico. Eu espero que isso ajude.
fonte
Questões computacionais são o argumento mais forte que ouvi de uma maneira ou de outra. A maior vantagem da distância Kolmogorov é que é muito fácil calcular analiticamente praticamente qualquer CDF. A maioria das outras métricas de distância não tem uma expressão de forma fechada, exceto, às vezes, no caso gaussiano.
A distância de Kolmogorov de uma amostra também tem uma distribuição de amostragem conhecida, dada a CDF (acho que a maioria das outras não), que acaba sendo relacionada ao processo de Wiener. Essa é a base do teste de Kolmogorov-Smirnoff para comparar uma amostra com uma distribuição ou duas amostras entre si.
Em uma nota de análise mais funcional, a norma é boa porque (como você mencionou) basicamente define convergência uniforme. Isso deixa você com a convergência normativa implicando convergência no sentido dos pontos; assim, se você for esperto sobre como define suas seqüências de funções, poderá trabalhar dentro de um RKHS e usar todas as boas ferramentas que também fornecem.
fonte
Como um resumo , minha resposta é: se você tem uma expressão explícita ou consegue descobrir como a sua distância está medindo (para quais "diferenças" ela pesa)), então você pode dizer para que serve. Uma outra maneira complementar de analisar e comparar esse teste é a teoria do minimax.
No final, alguns testes serão bons para algumas alternativas e alguns para outros. Para um determinado conjunto de alternativas, em algum momento é possível mostrar se o seu teste possui propriedades ideais no pior dos casos: esta é a teoria do minimax.
Alguns detalhes
Portanto, você pode falar sobre as propriedades de dois testes diferentes, considerando o conjunto de alternativas para as quais eles são minimax (se essa alternativa existir), por exemplo (usando a palavra Donoho e Jin), comparando seu "boudary de detecção ideal" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .
Deixe-me ir distância a distância:
A distância KS é obtida calculando-se a diferença suprema entre cdf empírico e cdf. Sendo um supremo, será altamente sensível às alternativas locais (mudança local no cdf), mas não à mudança global (pelo menos usar a distância L2 entre o cdf seria menos local (estou abrindo a porta aberta?)). No entanto, a coisa mais importante é que usa o cdf. Isso implica uma assimetria: você dá mais importância às mudanças na cauda de sua distribuição.
A métrica de Wassertein (o que você quis dizer com Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric é onipresente e, portanto, difícil de comparar.
Para recordar e estender o comentário que fiz, complete a resposta:
Sei que você não pretendia ser exaustivo, mas poderia adicionar a estatística querida de Anderson (consulte http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Isso me fez lembrar de um artigo de Jager e Wellner (consulte http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) que amplia / generaliza a estatística querida de Anderson (e inclui, em particular, maior crítica a Tukey). Já se demonstrou que críticas mais altas são mínimas para uma ampla gama de alternativas e o mesmo é feito por Jager e Wellner por sua extensão. Eu não acho que a propriedade minimax tenha sido mostrada para o teste de Kolmogorov. De qualquer forma, entender para qual tipo de alternativa seu teste é minimax ajuda a saber onde está a sua força, portanto, você deve ler o artigo acima.
fonte
Eu acho que você deve considerar as vantagens teóricas versus aplicadas das diferentes noções de distância. Objetos matematicamente naturais não se traduzem necessariamente em aplicação. Kolmogorov-Smirnov é o mais conhecido para aplicação e está entrincheirado nos testes de qualidade do ajuste. Suponho que uma das razões para isso é que, quando a distribuição subjacente é contínua a distribuição da estatística é independente da . Outra é que ele pode ser facilmente invertido para fornecer faixas de confiança para o CDF.FF F
Mas é frequentemente usado de uma maneira diferente, onde é estimado por , e a estatística de teste assume a forma O interesse é ver como ajusta aos dados e agir como se , mesmo que a teoria assintótica não se aplique necessariamente.F F^
fonte
Não posso lhe dar razões adicionais para usar o teste Kolmogorov-Smirnov. Mas, posso lhe dar uma razão importante para não usá-lo. Não se encaixa bem na cauda da distribuição. Nesse sentido, um teste de ajuste de distribuição superior é Anderson-Darling. Como segundo melhor, o teste do Chi Square é muito bom. Ambos são considerados muito superiores ao teste KS a esse respeito.
fonte
Do ponto de vista da análise funcional e da teoria das medidas, as distâncias do tipo não definem conjuntos mensuráveis em espaços de funções (espaços dimensionais infinitos perdem aditivo contável nas coberturas de esferas métricas). Isso desqualifica firmemente qualquer tipo de interpretação mensurável das distâncias das escolhas 2 e 3.Lp
É claro que Kolomogorov, por ser muito mais inteligente do que qualquer um de nós postando, principalmente eu, antecipava isso. O mais inteligente é que, embora a distância no teste KS seja da variedade , a própria norma uniforme não é usada para definir os conjuntos mensuráveis. Antes, os conjuntos fazem parte de uma filtragem estocástica sobre as diferenças entre as distribuições avaliadas nos valores observados; o que equivale ao problema do tempo de parada.L0
Em suma, a distância uniforme padrão da escolha 1 é preferível, porque o teste implica é equivalente ao problema do tempo de parada, que por si só produz probabilidades tratáveis computacionalmente. Onde as opções 2 e 3 não podem definir subconjuntos mensuráveis de funções.
fonte