Como medir a “distância” estatística entre duas distribuições de frequência?

14

Estou realizando um projeto de análise de dados que envolve a investigação do tempo de uso do site ao longo do ano. O que eu gostaria de fazer é comparar até que ponto os padrões de uso são "consistentes", por exemplo, quão próximos eles estão de um padrão que envolve usá-lo por 1 hora uma vez por semana, ou um que envolve usá-lo por 10 minutos por vez, 6 vezes por semana. Estou ciente de várias coisas que podem ser calculadas:

  • Entropia de Shannon: mede quanto a "certeza" no resultado difere, ou seja, quanto uma distribuição de probabilidade difere de uma que é uniforme;
  • Divergência Kullback-Liebler: mede quanto uma distribuição de probabilidade difere da outra
  • Divergência de Jensen-Shannon: semelhante à divergência de KL, mas mais útil porque retorna valores finitos
  • Teste de Smirnov-Kolmogorov : teste para determinar se duas funções de distribuição cumulativa para variáveis ​​aleatórias contínuas provêm da mesma amostra.
  • Teste qui-quadrado: um teste de qualidade do ajuste para decidir quão bem uma distribuição de frequência difere da distribuição de frequência esperada.

O que eu gostaria de fazer é comparar o quanto as durações reais de uso (azul) diferem dos tempos ideais de uso (laranja) na distribuição. Essas distribuições são discretas e as versões abaixo são normalizadas para se tornarem distribuições de probabilidade. O eixo horizontal representa a quantidade de tempo (em minutos) que um usuário passou no site; isso foi registrado para cada dia do ano; se o usuário não acessa o site, isso conta como uma duração zero, mas foram removidos da distribuição de frequência. À direita está a função de distribuição cumulativa.

Distribuição dos dados de uso do site versus dados de uso ideal

Meu único problema é que, embora eu possa obter a divergência JS para retornar um valor finito, quando olho usuários diferentes e comparo suas distribuições de uso à ideal, recebo valores que são quase idênticos (o que, portanto, não é bom). indicador de quanto eles diferem). Além disso, um pouco de informação é perdida ao normalizar para distribuições de probabilidade em vez de distribuições de frequência (digamos que um aluno use a plataforma 50 vezes, a distribuição azul deve ser dimensionada verticalmente para que o total dos comprimentos das barras seja igual a 50 e a barra laranja deve ter uma altura de 50 em vez de 1). Parte do que entendemos por "consistência" é se a frequência com que um usuário acessa o site afeta o quanto ele obtém; se o número de vezes que eles visitam o site for perdido, a comparação das distribuições de probabilidade será um pouco duvidosa; mesmo que a distribuição de probabilidade da duração de um usuário seja próxima ao uso "ideal", esse usuário poderá ter usado a plataforma apenas por uma semana durante o ano, o que, sem dúvida, não é muito consistente.

Existem técnicas bem estabelecidas para comparar duas distribuições de frequência e calcular algum tipo de métrica que caracteriza o quão semelhantes (ou diferentes) são?

omegaSQU4RED
fonte
4
Você pode começar perguntando a si mesmo qual é a sua função de perda (ou seja, de que maneira o padrão de uso difere do ruim ideal e como a quantidade de maldade depende do tipo de divergência existente) e projetando sua métrica em torno disso.
Acumulação 5/09/19

Respostas:

12

Você pode estar interessado na distância do motor da Terra , também conhecida como métrica de Wasserstein . É implementado no R (veja o emdistpacote) e no Python . Também temos vários tópicos nele .

O EMD trabalha para distribuições contínuas e discretas. O emdistpacote para R funciona em distribuições discretas.

A vantagem sobre algo como uma estatística é que o EMD produz resultados interpretáveis . Imagine sua distribuição como montes de terra, e o EMD lhe dirá quanta terra você precisaria para transportar até onde transformar uma distribuição na outra.χ2

Em outras palavras: duas distribuições (1,0,0) e (0,1,0) devem ser "mais semelhantes" que (1,0,0) e (0,0,1). O EMD reconhecerá isso e atribuirá uma distância menor ao primeiro par que ao segundo. A estatística atribuirá a mesma distância a ambos os pares, porque não tem noção de uma ordem nas entradas de distribuição.χ2

Stephan Kolassa
fonte
Por que essa distância em particular? Parece ter sido projetado para qualquer distribuição contínua. O OP tem uma distribuição de frequência; então, por que não uma distância mais "discreta", como o qui-quadrado?
user2974951
@ user2974951: justo o suficiente. Veja minha edição.
precisa saber é o seguinte
eup
eup
3

Se você amostrar aleatoriamente um indivíduo de cada uma das duas distribuições, poderá calcular uma diferença entre elas. Se você repetir isso (com a substituição) várias vezes, poderá gerar uma distribuição de diferenças que contenha todas as informações que você procura. Você pode plotar esta distribuição e caracterizá-la com qualquer estatística resumida que desejar - meios, medianas, etc.

mkt - Restabelecer Monica
fonte
1
Existe um nome para esse procedimento?
user2974951
4
Eu me pergunto como alguém poderia explicar o fato de que a distribuição de diferenças para uma distribuição arbitrária e ela mesma será diferente para diferentes distribuições arbitrárias; pense U (0,1) vs. si mesmo comparado a N (0,1) vs. si mesmo. Portanto, seria difícil avaliar a distribuição das diferenças comparadas com duas distribuições diferentes na ausência de uma linha de base exclusiva. O problema desaparece se as observações forem emparelhadas, então a linha de base seria uma massa unitária em zero.
Richard Hardy
@ user2974951 Tenho certeza de que existe, pois é bastante simples e claramente relacionado ao bootstrap. Mas não sei como chamá-lo com precisão.
mkt - Restabelece Monica
1
@mkt, obrigado pelo seu esclarecimento. Sem pretender argumentar apenas por uma questão, ainda acho que sem uma linha de base única, não temos uma régua. Mas vou deixar por isso mesmo. De qualquer maneira, há algo de bom na sua ideia.
Richard Hardy
1
@RichardHardy Agradeço a troca aqui, e você pode estar certo. Vou ter que pensar mais sobre isso.
mkt - Restabelece Monica
0

Uma das métricas é a distância de Hellinger entre duas distribuições que são caracterizadas por meios e desvios padrão. O aplicativo pode ser encontrado no seguinte artigo.

https://www.sciencedirect.com/science/article/pii/S1568494615005104

user9003011
fonte
Obrigado por isso. Vi que há toda uma família de divergências (f-divergences) que fazem o que eu quero, mas uma rápida pesquisa na literatura não parece indicar qual é a melhor quando ... você conhece alguma boa literatura sobre esta?
OmegaSQU4RED