Problema reverso de aniversário com várias colisões

9

Suponha que você teve um ano alienígena com um comprimento desconhecido N. Se você tem uma amostra aleatória dos referidos alienígenas e alguns deles compartilham aniversários, você pode usar esses dados para estimar a duração do ano?

Por exemplo, em uma amostra de 100, você pode ter dois trigêmeos (ou seja, dois aniversários cada um compartilhados por três alienígenas) e cinco pares e oitenta e quatro singletons. Na estimativa de N, o mínimo absoluto é 91 e o máximo é ilimitado, mas como eu encontraria um valor esperado razoável?

Pressupostos incluem coisas como "todos os aniversários são igualmente prováveis".

Ao contrário de outra pergunta respondida aqui, existem colisões conhecidas na sala. Qualquer ano suficientemente longo terá uma forte probabilidade de não colisões para uma sala de alienígenas. Porém, anos muito longos terão chances baixas de qualquer colisão, e anos curtos terão chances baixas de poucas colisões, proporcionando assim um intervalo (teórico) para os comprimentos de ano mais prováveis.

Techhead
fonte
3
Minha resposta a uma versão especial desta pergunta generaliza prontamente (usando a distribuição multinomial): consulte stats.stackexchange.com/questions/252813 .
whuber
@Techhead De várias maneiras! A abordagem óbvia para a estimativa de parâmetros a ser mencionada seria a máxima probabilidade.
Glen_b -Reinstate Monica
11
@whuber Eu vi essa pergunta e seu comentário, mas não vi como aplicar a maior parte a uma amostra com colisões conhecidas. Não é difícil encontrar a forma expandida, mas não sei como encontraria a soma logarítmica.
Techhead
11
Concordo que sua versão é suficientemente mais complicada que não deve ser fechada como duplicada.
whuber

Respostas:

2

O valor esperado de uma distribuição é calculado como . Para esse problema, queremos calcular a distribuição de com base em alguns critérios de colisão ou encontrar com alguns critérios de colisão, em que N E ( N ) = Σ n = 0 p n n p n = P ( N = N ) .E(X)=pixiNE(N)=n=0pnnpn=P(N=n).

Suponha que você tenha alguns critérios de colisão, conforme declarado acima, e seja a probabilidade de que os critérios de colisão sejam atendidos, considerando que a duração do ano éEm seguida, pode ser encontrado simplesmente dividindo o número de maneiras que os critérios de colisão podem ser atendidos pelo número de maneiras que os aniversários podem ser organizados em geral. Depois que for encontrado para cada possível , a única parte que está faltando é converter em n . q n q n n q n p n .qnn.qnqnnqnpn.

Se assumirmos que é proporcional a , entãoComo , ePortanto, precisamos apenas de uma fórmula para para resolver esse problema.q n p n = α q n . Σ n = 0 p n = 1 α Σ n = 0 Q n = 1 α = 1pnqnpn=αqn.n=0pn=1αn=0qn=1qnα=1n=0qn.qn

Para seu exemplo, vamos primeiro encontrar o número de maneiras pelas quais os critérios de colisão podem ocorrer, dadoO primeiro singleton alienígena pode pousar em qualquer dia, então não há possibilidades. O próximo singleton pode pousar em qualquer dia, exceto no aniversário do primeiro alienígena, então há possibilidades. Completando isso para os primeiros 84 singletons, obtemos maneiras possíveis de isso acontecer. Observe que também temos 5 pares e 2 trigêmeos, portanto o "primeiro" alienígena de cada grupo também não deve pousar nos pares singleton. Isso leva a maneiras pelas quais esses alienígenas não colidem (a sintaxe desajeitada é para facilitar a generalização posteriormente).n n - 1 n ( n - 1 ) ( n - 2 ) . . . ( n - 83 ) n ( n - 1 ) ( n - 2 ) . . . ( n - 84 - 5 - 2 + 1 )N=n.nn1n(n1)(n2)...(n83)n(n1)(n2)...(n8452+1)

Em seguida, o segundo estrangeiro para um dado par ou tripleto tem 91 escolhas, o seguinte tem 90, etc., o número total de formas Isto pode acontecer devido às aniversários dos primeiros 91 alienígenas é . Os membros restantes dos trigêmeos devem cair nos aniversários dos pares, e a probabilidade de isso acontecer é . Multiplicamos as probabilidades de todas elas juntas para obter um número total de maneiras possíveis para que os critérios de colisão sejam atendidos como:7 691(911)(912)...(917+1)76

rn=n(n1)...(n8452+1)(84+5+2)(84+5+21)...(84+1)(5+2)(5+1)

Neste ponto, o padrão é claro, se tivermos singletons, pares, e trigêmeos, substituímos 84 com 5 com e 2 com para obter uma fórmula generalizada. Eu acho que também está claro que o número de maneiras possíveis de organizar os aniversários em geral é , onde m é o número total de alienígenas no problema. Portanto, a probabilidade de atender aos critérios de colisão é o número de maneiras de atender aos critérios de colisão dividido pelo número de maneiras pelas quais os alienígenas podem nascer, ou .b c a , b , c n m q n = r nabca,b,cnmqn=rnnm

Outra coisa interessante apareceu na fórmula de . Seja E deixe seja a parte restante de para que . Observe que é independente de n, então podemos simplesmente escrever como uma constante! Como e , podemos realmente fatorar fora da soma no denominador. Nesse ponto, ele cancela a parte do numerador para obter . Podemos simplificary n = n ( n - 1 ) . . . ( n - ( a + b + c ) + 1 ) = n !rnznrnrn=ynznznzn=zpn=Qn/Σi = 0 qiqn=zynyn=n(n1)...(n(a+b+c)+1)=n!(n(a+b+c))!znrnrn=ynznznzn=zpn=qn/i=0qi zpn=ynqn=zynnmzyns=a+b+cpn=ynnm/i=0(yiim)ynalém disso, se deixarmos (ou isso pode ser pensado como o número de aniversários únicos no grupo de alienígenas), para obtermos:s=a+b+c

pn=n!(ns)!nm/i=0(i!(is)!im)

Agora, temos uma fórmula (razoavelmente) simples para e, portanto, uma fórmula (razoavelmente) simples para , onde a única suposição feita era que é proporcional a (a probabilidade de encontrar a colisão) critérios dado que ). Eu acho que essa é uma suposição justa a ser feita, e alguém mais inteligente que eu pode até provar que essa suposição está associada a após uma distribuição multinomial. Nesse ponto, podemos calcular usando métodos numéricos ou fazer algumas suposições de aproximação, pois se aproximará de 0 quando aproxima de . E ( N ) P ( N = n ) q n N = n P ( N = n ) E ( N ) p n n pnE(N)P(N=n)qnN=nP(N=n)E(N)pnn

Cody Maughan
fonte
Parece que você propõe calcular o valor esperado com base em uma função de probabilidade em vez de uma função de massa de probabilidade. Isso foi intencional?
Sextus Empiricus
2

A excelente resposta de Cody proporciona uma boa maneira de expressar a função de probabilidade para , o número de dias no ano (ou a distribuição a posteriori com base num plano antes) por factoring fora alguma parte da probabilidade de que é independente a partir de .NN

Nesta resposta, gostaria de escrevê-la de forma mais concisa e também fornecer uma maneira de calcular o máximo dessa função de probabilidade (em vez do valor esperado, que é muito mais difícil de calcular).


Função de verossimilhança para N

O número de maneiras de desenhar uma sequência de de um conjunto de aniversários, com a restrição de que é o número de aniversários únicos, aniversários duplicados aniversários triplos é igual aa+2b+3cnabc

rn=(na+b+c)number of ways topick m unique birthdaysout of n days(a+b+c)!a!b!c!number of ways todistribute m birthdaysamong groups of size ab and c(a+2b+3c)!1!a2!b3!cnumber of ordered ways toarrange specific single, duplicate, and triplicatesamong the aliens =n!(nabc)!×(a+2b+3c)a!b!c!1!a2!b3!c

e apenas o primeiro termo do lado direito depende de , portanto, fatorando os outros termos, terminamos com uma expressão simples para uma função de probabilidaden

L(n|a,b,c)=n(a+2b+3c)n!(nabc)!=nmn!(ns)!P(a,b,c|n)

onde seguimos a notação de Cody e usamos para indicar o número de alienígenas o número de aniversários únicos.ms


Estimativa de máxima verossimilhança para N

Podemos usar essa função de verossimilhança para derivar a estimativa de probabilidade máxima para .N

Observe que

L(n)=L(n1)(n1n)mnns

e o máximo ocorrerá imediatamente antes do para o qualn

(n1n)mnns=1

ou

s=n(1(11/n)m)

que é para grande aproximadamente (usando uma série Laurent que você pode encontrar substituindo e escreva na série de Taylor no ponto )nx=1/nxx=0

sk=0l(mk)(n)k+O(n(l+1))

Usando apenas o termo de primeira ordem você obtém:smm(m1)2n

n1(m2)ms

Usando o termo de segunda ordem também você obtém :smm(m1)2n+m(m1)(m2)6n2

n2(m2)+(m2)24(ms)(m3)2(ms)

Assim, no caso das estrangeiros entre os quais há aniversários exclusivos que você obter usando a aproximação e . Quando você resolve a equação numericamente, obtém que arredondamos para para obter o MLE.m=100s=91n1550n2515.1215n=516.82n=516

comparando aproximação com verdadeiro MLE

Sextus Empiricus
fonte