Essa distribuição discreta tem um nome?

21

Essa distribuição discreta tem um nome? Para Eu1 ...N

f(i)=1Nj=iN1j

Eu me deparei com essa distribuição a partir do seguinte: Eu tenho uma lista de N itens classificados por alguma função de utilitário. Eu quero selecionar aleatoriamente um dos itens, tendendo para o início da lista. Então, primeiro escolho um índice j entre 1 e N uniformemente. Depois, seleciono um item entre os índices 1 e j . Eu acredito que esse processo resulta na distribuição acima.

Tom
fonte
2
Esta não é uma distribuição: não é normalizada.
whuber
@whuber Eu pensava assim no começo (e comentei antes de perceber que havia entendido errado e removido o comentário), mas acabou que eu entendi mal a definição. A menos que eu tenha outro mal-entendido, é uma função de massa de probabilidade normalizada.
Glen_b -Reinstate Monica
4
É normalizado. 1/1 aparecerá na soma exatamente uma vez (será em f (1)). 1/2 aparecerá exatamente duas vezes (estará em f (1) ef (2)). etc. Portanto, a soma de todas essas somas será N e a constante de normalização será mostrada como 1 / N. check-out.
Rcorty 18/05
1
Mais importante, porém, não sei como essa distribuição é chamada. Também não sei como o processo que você descreveu leva a essa distribuição. Um pensamento que tive é que soa como uma versão discreta de um processo de quebra de galhos, o que é muito googlable.
Rcorty 18/05
@Glen_b Thanks. Eu estava lendo isso no meu telefone, o que não resultou em clareza suficiente. f
whuber

Respostas:

30

Você tem uma versão discreta da distribuição de log negativa, ou seja, a distribuição cujo suporte é e cujo pdf é f ( t ) = - log t .[0,1]f(t)=logt

Para ver isso, vou redefinir sua variável aleatória para obter valores no conjunto vez de { 0 , 1 , 2 , , N } e chamar o resultante distribuição t . Então, minha reivindicação é que{0,1/N,2/N,,1}{0,1,2,,N}T

Pr(T=tN)1Nlog(tN)

como enquanto tN,ttN é mantido (aproximadamente) constante.

Primeiro, um pequeno experimento de simulação demonstrando essa convergência. Aqui está uma pequena implementação de um amostrador da sua distribuição:

t_sample <- function(N, size) {
  bounds <- sample(1:N, size=size, replace=TRUE)
  samples <- sapply(bounds, function(t) {sample(1:t, size=1)})
  samples / N
}

Aqui está um histograma de uma grande amostra retirada de sua distribuição:

ss <- t_sample(100, 200000)
hist(ss, freq=FALSE, breaks=50)

insira a descrição da imagem aqui

e aqui está o pdf logarítmico sobreposto:

linsp <- 1:100 / 100
lines(linsp, -log(linsp))

insira a descrição da imagem aqui

Para ver por que essa convergência ocorre, comece com sua expressão

Pr(T=tN)=1Nj=tN1j

e multiplique e divida por N

Pr(T=tN)=1Nj=tNNj1N

A soma agora é uma soma de Riemann para a função , integrado a partir detg(x)=1xtN1N ,

Pr(T=tN)1NtN11xdx=1Nlog(tN)

qual é a expressão que eu queria chegar.

Matthew Drury
fonte
Você é extremamente bem-vindo. Essa foi uma ótima pergunta e eu me diverti muito trabalhando nisso.
Matthew Drury
6

Isso parece estar relacionado à distribuição de Whitworth. (Não acredito que seja a distribuição Whitworth, pois, se bem me lembro, é a distribuição de um conjunto de valores ordenados, mas parece estar conectado a ele e depende do mesmo esquema de soma).

Há alguma discussão sobre o Whitworth (e inúmeras referências) em

Anthony Lawrance e Robert Marks, (2008)
"Distribuições de tamanho firme em uma indústria com recursos limitados",
Applied Economics , vol. 40, edição 12, páginas 1595-1607

(Parece haver uma versão em papel aqui )

Veja também

Nancy L Geller, (1979)
Um teste de significância para a distribuição Whitworth,
Jornal da Sociedade Americana de Ciência da Informação , Vol.30 (4), pp.229-231

Glen_b -Reinstate Monica
fonte
2
Para tornar essa resposta independente, você poderia fornecer uma definição da distribuição de Whitworth e talvez fornecer algumas palavras de explicação sobre a conexão que você vê?
whuber
@whuber Sim, deve ser um comentário como está. Vou editar alguns detalhes, mas isso vai acabar muito mais.
Glen_b -Reinstate Monica
Apenas algum tipo de definição seria bom.
whuber
Obrigado, isso foi entendido, mas, no entanto, esse será o resultado.
Glen_b -Reinstate Monica