Estou tentando criar uma métrica para medir a não uniformidade de uma distribuição para um experimento que estou executando. Eu tenho uma variável aleatória que deve ser distribuída uniformemente na maioria dos casos, e eu gostaria de poder identificar (e possivelmente medir o grau de) exemplos de conjuntos de dados em que a variável não é distribuída uniformemente dentro de alguma margem.
Um exemplo de três séries de dados, cada uma com 10 medições representando a frequência da ocorrência de algo que estou medindo pode ser algo como isto:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Eu gostaria de poder distinguir distribuições como c daquelas como aeb, e medir o desvio de c de uma distribuição uniforme. Da mesma forma, se houver uma métrica para a uniformidade de uma distribuição (desvio padrão próximo a zero?), Talvez eu possa usá-la para distinguir aquelas com alta variação. No entanto, meus dados podem ter apenas um ou dois valores discrepantes, como o exemplo c acima, e não tenho certeza se isso será facilmente detectável dessa maneira.
Posso hackear algo para fazer isso em software, mas estou procurando métodos / abordagens estatísticas para justificar isso formalmente. Tomei uma aula anos atrás, mas as estatísticas não são a minha área. Parece algo que deve ter uma abordagem bem conhecida. Desculpe se algo disso é completamente tonto. Desde já, obrigado!
Respostas:
Se você tiver não apenas as frequências, mas as contagens reais, poderá usar um de ajuste de para cada série de dados. Em particular, você deseja usar o teste para uma distribuição uniforme e discreta . Isso fornece um bom teste , que permite descobrir quais séries de dados provavelmente não foram geradas por uma distribuição uniforme, mas não fornecem uma medida de uniformidade.χ2
Existem outras abordagens possíveis, como calcular a entropia de cada série - a distribuição uniforme maximiza a entropia; portanto, se a entropia for suspeita baixa, você concluiria que provavelmente não possui uma distribuição uniforme. Isso funciona como uma medida de uniformidade em algum sentido.
Outra sugestão seria usar uma medida como a divergência Kullback-Leibler , que mede a semelhança de duas distribuições.
fonte
Além das boas idéias do @MansT, você pode propor outras medidas, mas isso depende do que você quer dizer com "não uniformidade". Para simplificar, vejamos 4 níveis. É fácil definir uniformidade perfeita:
25 25 25 25
mas qual das alternativas a seguir é mais não uniforme?
20 20 30 30 ou 20 20 25 35
ou são igualmente não uniformes?
se você acha que eles são igualmente não uniformes, você pode usar uma medida com base na soma dos valores absolutos dos desvios do normal, dimensionada pelo máximo possível. Então o primeiro é 5 + 5 + 5 + 5 = 20 e o segundo é 5 + 5 + 0 + 10 = 20. Mas se você acha que o segundo é mais não uniforme, você pode usar algo com base nos desvios ao quadrado. primeiro recebe 25 + 25 + 25 + 25 = 100 e o segundo recebe 25 + 25 + 0 + 100 = 150.
fonte
Aqui está uma heurística simples: se você assume elementos em qualquer soma vetorial como (ou simplesmente normaliza cada elemento com a soma para conseguir isso), a uniformidade pode ser representada pela norma L2, que varia de a , com sendo a dimensão dos vetores.1 1d√ 1 d
O limite inferior corresponde à uniformidade e o limite superior ao vetor -hot.1d√ 1
Para dimensionar isso para uma pontuação entre e , você pode usar , em que é a norma L2.0 1 n∗d√−1d√−1 n
Um exemplo modificado a partir do seu com elementos que somam e todos os vetores com a mesma dimensão para simplificar:1
O seguinte produzirá , e para as linhas:0.0028 0.0051 0.4529
fonte
Tropecei sobre isso recentemente, e para adicionar à resposta de @ user495285, tanto quanto eu entendo:
Creio que a utilidade das medidas geométricas se aplica quando se assume que cada posição (dimensão) do espaço descrito é medida em escalas equivalentes, por exemplo, todas as contagens de distribuição potencialmente igual. As mesmas suposições subjacentes à mudança de bases como PCA / SVD provavelmente são semelhantes aqui. Mas, novamente, eu não sou matemático, então deixarei isso em aberto para os mais informados.
fonte