Procurei na web, mas não encontrei nada útil.
Basicamente, estou procurando uma maneira de medir o quão 'uniformemente' um valor é distribuído. Como em uma distribuição distribuída 'uniformemente' como X :
e uma distribuição Y 'desigual' distribuída aproximadamente da mesma média e desvio padrão:
Mas existe alguma medida de uniformidade m, tal que m (X)> m (Y)? Se não houver, qual seria a melhor maneira de criar uma medida como essa?
(Imagens capturadas pela Khan Academy)
Respostas:
Uma medida de "uniformidade" padrão, poderosa, bem entendida, teoricamente bem estabelecida e frequentemente implementada é a função Ripley K e seu parente próximo, a função L. Embora estes sejam normalmente usados para avaliar configurações de pontos espaciais bidimensionais, a análise necessária para adaptá-los a uma dimensão (que geralmente não é fornecida em referências) é simples.
Teoria
A função K estima a proporção média de pontos a uma distância de um ponto típico. Para uma distribuição uniforme no intervalo [ 0 , 1 ] , a proporção verdadeira pode ser calculada e (assintoticamente no tamanho da amostra) é igual a 1 - ( 1 - d ) 2 . A versão unidimensional apropriada da função L subtrai esse valor de K para mostrar os desvios da uniformidade. Portanto, podemos considerar normalizar qualquer lote de dados para ter um intervalo de unidades e examinar sua função L para desvios em torno de zero.d [0,1] 1−(1−d)2
Exemplos Trabalhados
Para ilustrar , eu simulado amostras independentes de tamanho 64 a partir de uma distribuição uniforme e plotados suas (normalizado) funções L de distâncias mais curtas (de 0 a 1 / 3 ), criando assim um envelope para estimar a distribuição de amostragem da função G. (Os pontos plotados dentro deste envelope não podem ser significativamente diferenciados da uniformidade.) Sobre isso, plotamos as funções L para amostras do mesmo tamanho de uma distribuição em forma de U, uma distribuição de mistura com quatro componentes óbvios e uma distribuição normal padrão. Os histogramas dessas amostras (e de suas distribuições pai) são mostrados para referência, usando símbolos de linha para corresponder aos das funções L.999 64 0 1/3
Os picos separados e agudos da distribuição em forma de U (linha vermelha tracejada, histograma mais à esquerda) criam agrupamentos de valores espaçados. Isso é refletido por uma inclinação muito grande na função L em . A função L diminui, eventualmente se tornando negativa para refletir as lacunas em distâncias intermediárias.0
A amostra da distribuição normal (linha azul sólida, histograma mais à direita) é razoavelmente próxima da distribuição uniforme. Consequentemente, sua função L não se afasta de rapidamente. No entanto, por distâncias de 0,10 ou mais, ele subiu suficientemente acima do envelope para sinalizar uma ligeira tendência a se agrupar. O aumento contínuo através de distâncias intermediárias indica que o agrupamento é difuso e generalizado (não confinado a alguns picos isolados).0 0.10
A grande inclinação inicial para a amostra da distribuição da mistura (histograma do meio) revela agrupamentos a pequenas distâncias (menos de ). Ao cair para níveis negativos, sinaliza separação a distâncias intermediárias. A comparação com a função L da distribuição em forma de U é reveladora: as inclinações em 0 , as quantidades pelas quais essas curvas se elevam acima de 0 e as taxas nas quais elas eventualmente retornam a 0 fornecem informações sobre a natureza do agrupamento presente em os dados. Qualquer uma dessas características pode ser escolhida como uma única medida de "uniformidade" para atender a uma aplicação específica.0.15 0 0 0
Esses exemplos mostram como uma função L pode ser examinada para avaliar desvios dos dados da uniformidade ("uniformidade") e como informações quantitativas sobre a escala e a natureza das saídas podem ser extraídas.
(De fato, pode-se traçar toda a função L, estendendo-se à distância normalizada total de , para avaliar desvios em grande escala da uniformidade. Porém, normalmente, avaliar o comportamento dos dados em distâncias menores é de maior importância.)1
Programas
R
código para gerar esta figura a seguir. Começa definindo funções para calcular K e L. Ele cria uma capacidade de simular a partir de uma distribuição de mistura. Em seguida, gera os dados simulados e faz os gráficos.fonte
Ripley.L
.Suponho que você queira medir a proximidade da distribuição do uniforme.
Você pode observar a distância entre a função de distribuição cumulativa da distribuição uniforme e a função empírica de distribuição cumulativa da amostra.
Agora, como medida da distância entre distribuições, vamos tomar a soma das distâncias em cada ponto, ou seja,
Em casos mais complicados, você precisa revisar a norma usada acima, mas a idéia principal permanece a mesma. Se você precisar de um procedimento de teste, pode ser bom usar normas para as quais os testes são desenvolvidos (os que o @TomMinka apontou).
fonte
Se eu entendi sua pergunta corretamente, a distribuição "mais equilibrada" para você seria aquela em que a variável aleatória pegaria todos os valores observados uma vez - uniforme em certo sentido. Se houver "aglomerados" de observações com o mesmo valor, isso seria desigual. Supondo que estamos falando de observações discretas, talvez você possa observar a diferença média entre os pontos de massa de probabilidade, a diferença máxima ou talvez quantas observações tenham uma diferença da "média" em um determinado limite.
Se fosse realmente uniforme nas observações, todos os pontos PM deveriam ter o mesmo valor, e a diferença entre max e min é 0. Quanto mais próxima a diferença média for de 0, mais "uniforme" será a maior parte das observações. a diferença máxima e os poucos "picos" que existem também mostram o quão "uniformes" são as observações empíricas.
Atualização É claro que você pode usar um teste do qui-quadrado para uniformizar ou comparar a função de distribuição empírica com um uniforme, mas nesses casos, você será penalizado por grandes "lacunas" nas observações, mesmo que as distribuições de observações ainda sejam "até".
fonte
A medida que você está procurando é formalmente chamada de discrepância .
A versão unidimensional é a seguinte:
Sequências de baixa discrepância são freqüentemente chamadas de sequências quase aleatórias .
Uma visão geral básica das seqüências de baixa discrepância pode ser encontrada aqui , e minha postagem no blog " A eficácia irracional das sequências quase aleatórias " compara vários métodos quando aplicados à Integração Numérica, pontos de mapeamento para a superfície de uma esfera e mosaico quase-periódico.
fonte
fonte