Medir a uniformidade de uma distribuição durante a semana

11

Eu tenho um problema semelhante à pergunta feita aqui:

Como se mede a não uniformidade de uma distribuição?

Eu tenho um conjunto de distribuições de probabilidade ao longo dos dias da semana. Quero medir o quão perto cada distribuição está (1/7,1 / 7, ..., 1/7).

No momento estou usando uma resposta da pergunta acima; uma norma L2, que tem valor 1 quando a distribuição possui massa 1 por um dos dias e é minimizada por (1/7,1 / 7, ..., 1/7). Estou escalando linearmente isso para que fique entre 0 e 1 e, em seguida, invertê-lo para que 0 signifique perfeitamente não uniforme e 1 signifique perfeitamente uniforme.

Isso funciona muito bem, mas eu tenho um problema com isso; ele trata todos os dias da semana igualmente como uma dimensão no espaço 7-Dim, para não levar em conta a proximidade dos dias; em outras palavras, atribui a mesma pontuação a (1 / 2,1 / 2,0,0,0,0,0) e (1 / 2,0,0,1 / 2,0,0,0) mesmo embora, em certo sentido, o último seja mais "difundido" e uniforme, devendo, idealmente, obter uma pontuação mais alta. Obviamente, há a complicação adicional de que a ordem dos dias é circular.

Como posso alterar essa heurística para explicar a proximidade de dias?

EBartrum
fonte
11
Seu exemplo de (1 / 2,1 / 2,0,0,0,0,0) e (1 / 2,0,0,1 / 2,0,0,0) não é uniforme da mesma maneira , portanto, não importa se você está interessado apenas em testar a uniformidade. Então, talvez você queira testar algo mais que não foi declarado explicitamente em sua pergunta? Aliás, entropia é uma medida de uniformidade.
Tim
Obrigado Tim, tentei usar o Entropy, mas achei que a heurística mencionada acima funcionou melhor para meus propósitos. Não sei ao certo como chamar a propriedade de uma distribuição de probabilidade durante os dias da semana em que estou interessado, exceto que ele deve encapsular a "dispersão" das probabilidades ao longo da semana.
EBartrum 22/10/2015

Respostas:

15

A distância do motor terra , também conhecida como métrica de Wasserstein, mede a distância entre dois histogramas. Essencialmente, ele considera um histograma como um número de pilhas de sujeira e, em seguida, avalia a quantidade de sujeira necessária para se mover e a que distância (!) Para transformar esse histograma no outro. Você mede a distância entre sua distribuição e uma distribuição uniforme ao longo dos dias da semana.

É claro que isso explica a proximidade de dias - é mais fácil mover a "sujeira" de segunda a terça-feira do que de segunda a quinta-feira, portanto (1 / 2,0,0,1 / 2,0,0,0) teria um menor distância do motor terra da distribuição uniforme do que um histograma concentrado na segunda e na terça-feira.

O que isso não faz é considerar a "circularidade" da semana, ou seja, que sábado e domingo estão tão próximos quanto domingo e segunda-feira. Para isso, você precisaria procurar uma distância de terra definida nas distribuições de massa de probabilidade circular . Isso deve ser possível usando uma abordagem de otimização adequada.


EDIT: No R, o emdpacote calcula as distâncias do movedor de terra entre os histogramas.

Você pode resolver o problema da "circularidade" de uma maneira bastante simples (embora ad-hoc).

  • Calcule uma distância do motor terra entre sua distribuição e uma distribuição uniforme de segunda a domingo.d1
  • Calcule uma distância relação a uma distribuição uniforme de terça a segunda-feira.d2
  • Calcule uma distância relação a uma distribuição uniforme de quarta a terça-feira.d3
  • ...
  • Por fim, como distância final, use a média de .d1,,d7

Isso cuida da circularidade às custas de alguns cálculos adicionais.

2ª EDIÇÃO: esta não é a distância do motor de terra circular como tal. Para isso, você precisará examinar algumas das literaturas em que uma pesquisa será exibida . Se a melhor maneira de mover a sujeira entre os dias envolver movê-la dois dias de sábado para segunda-feira, isso será exibido em cinco dos sete , mas não nos dois restantes (onde a sujeira precisará ser removida cinco dias).di

No entanto, eu ainda consideraria isso uma maneira potencialmente útil de, pelo menos, considerar a circularidade de alguma maneira - certamente melhor do que apenas usar um único histograma e definir a semana como indo de domingo a sábado ou de outra maneira arbitrária. Além disso, embora alguns links acima gerem implementações para a distância do movedor de terra circular, não conheço um para R, que provavelmente é a linguagem mais usada aqui.

Stephan Kolassa
fonte
3
No começo, pensei que o último exemplo (média de ) é um exemplo de como calcular a distância do movedor de terra circular e estava confuso (porque o resultado poderia ser maior que alguns de ). Então percebi que essa resposta não implica isso em lugar algum. Não sei se outras pessoas leem esta resposta como eu, mas pode ser bom afirmar com mais clareza que o exemplo não é a distância do motor circular da terra. d id1,,d7di
22715 JiK
@JiK: bom ponto, e um que também me ocorreu depois que perdi a conectividade ontem. Esclarei minha resposta para enfatizar que esta é uma distância circular e não real do realizador de terra.
Stephan Kolassa
11
Muito obrigado, na verdade, eu consegui implementar uma distância circular do earth earth em R com o pacote emd e a função emd2d, definindo minha própria função de distância, portanto não precisei usar o hack que você mencionou. Era exatamente isso que eu estava procurando! Outra questão insignificante: como devo chamá-lo? Como Tim disse acima, não devo chamar isso de uniformidade. Qual seria um nome apropriado para essa heurística?
EBartrum 23/10/2015
11
Bem, você está testando a uniformidade, para que o termo esteja correto. O que Tim está discutindo é sobre quais desvios específicos da uniformidade você deseja avaliar; portanto, você pode estar procurando por um termo mais preciso do que " não- uniformidade". Como você discutiu, você não está procurando partidas no sentido de distância , mas aparentemente no sentido de EMD. Não vejo um bom nome para chamar isso de bebê. Talvez você só queira espalhar "EMD" na sua prosa. "A distribuição A é mais EMD não uniforme que B." "A é mais distante da uniformidade do que B." Não parece muito poético, no entanto. Desculpa. L2
Stephan Kolassa