Gostaria de saber se há algum tipo de distribuição padrão em subconjuntos de números inteiros . De maneira equivalente, poderíamos expressar isso como uma distribuição em um vetor de comprimento de resultados binários, por exemplo, se então corresponde ao vetor (1, 0, 1, 0, 1) .
Idealmente, o que estou procurando é alguma distribuição , proveniente de uma família indexada por um parâmetro dimensional finito , que distribuiria sua massa de tal maneira que dois vetores binários e terão probabilidade de se eles são "fechar" em conjunto, ou seja, e têm probabilidades semelhantes. Realmente, o que pretendo fazer é colocar um prior em modo que, se eu sei que é bastante grande, então provavelmente seja grande em relação a vetores distantes de .
Uma estratégia que vem à mente seria colocar uma métrica ou alguma outra medida de dispersão em em e, em seguida, tomar ou algo semelhante. Um exemplo explícito seria em analogia com a distribuição normal. Tudo bem, mas espero que exista algo padrão e favorável à análise bayesiana; com isso, não consigo anotar a constante de normalização.
fonte
Respostas:
Você pode favorecer famílias de locais com base na distância de Hamming , devido à sua riqueza, flexibilidade e capacidade de processamento computacional.
Notação e definições
Lembre-se de que em um módulo de dimensão finita livre com base , a distância de Hamming entre dois vetores e é o número de lugares , onde .( e 1 , e 2 , … , e J ) δ H v = v 1 e 1 + ⋯ + v J e J w = w 1 e 1 + ⋯ + w J e J i v i ≠ w iV ( e1 1, e2, … , EJ) δH v = v1 1e1 1+ ⋯ + vJeJ w = w1 1e1 1+ ⋯ + wJeJ Eu vEu≠ wEu
Dada qualquer origem , a distância de Hamming particiona nas esferas , , em que . Quando o anel de aterramento possui elementos, possui elementos e possui . (Isso ocorre imediatamente após observar que os elementos de diferem de exatamente em locais - dos quais existemV S i ( v 0 )i=0,1,…,J S i ( v 0 )={ w ∈V | δ H ( w , v 0 )=i}nV n Jv0 0∈ V V SEu( v0 0) i = 0 , 1 , … , J SEu( v0 0) = { w ∈ V | δ H( w , v0 0) = i } n V nJ ( JSEu( V ) Si(( JEu) (n-1)Eu v i ( JSEu( V ) v Eu n-1( JEu) possibilidades - e que existem, independentemente, opções de valores para cada local.)n−1
A tradução afim em atua naturalmente em suas distribuições para fornecer famílias de locais. Especificamente, quando é qualquer distribuição em (que significa pouco mais que , para todos e ) e é qualquer elemento de , então também é uma distribuição Ondef V f : V → [ 0 , 1 ] f ( v ) ≥ 0 v ∈ V ∑ v ∈ V f ( v ) = 1 w V f ( w )V f V f:V→[0,1] f(v)≥0 v∈V ∑v∈Vf(v)=1 w V f(w)
para todos . Uma família local de distribuições é invariante no âmbito desta acção: implica para todos .Ω f ∈ Ωv∈V Ω f∈Ω v ∈ Vf(v)∈Ω v∈V
Construção
Isso nos permite definir famílias de distribuições potencialmente interessantes e úteis, especificando suas formas em um vetor fixo , que, por conveniência, considerarei e traduzindo essas "distribuições geradoras" sob a ação de para obter a família completa . Para atingir a propriedade desejada que deve ter valores comparáveis em pontos próximos, basta exigir essa propriedade de todas as distribuições geradoras.0 = ( 0 , 0v V Ω f0 =( 0,0,…,0) V Ω f
Para ver como isso funciona, vamos construir a família de locais de todas as distribuições que diminuem com o aumento da distância. Como apenas as distâncias Hamming são possíveis, considere qualquer sequência decrescente de números reais não negativos = . Conjuntoa 0J+1 a 0≠a0≥a1≥⋯≥aJ≥ 0
e defina a função porfuma:V→ [ 0 , 1 ]
Então, como é fácil de verificar, é uma distribuição em . Além disso, se e somente se for um múltiplo positivo de (como vetores em ). Assim, se quisermos, podemos padronizar para . V f a = f a ' a ' a R J + 1 a a 0 = 1fuma V fuma= fuma′ uma′ uma RJ+ 1 uma uma0 0= 1
Dessa forma, essa construção fornece uma parametrização explícita de todas as distribuições invariantes a localização que estão diminuindo com a distância de Hamming: qualquer distribuição está no formato para alguma sequência e algum vetor . a = 1 ≥f( V )uma v ∈ Va =1≥ a1 1≥ a2≥ ⋯ ≥ aJ≥ 0 v ∈V
Essa parametrização pode permitir uma especificação conveniente de prioros: fatorá-los em um prior no local e um prior no formato . (Obviamente, pode-se considerar um conjunto maior de priores onde a localização e a forma são independentes, mas isso seria uma tarefa mais complicada.)av uma
Gerando valores aleatórios
Uma maneira de amostrar a partir de é por etapas, fatorando-a em uma distribuição através dos raios esféricos e outra distribuição condicional em cada esfera:f( V )uma
Desenhe um índice da distribuição discreta em dada pelas probabilidades , onde é definido como antes .Eu ( J{ 0 , 1 , … ,J} A( JEu) (n-1)EuumaEu/ A UMA
O índice corresponde ao conjunto de vetores que diferem de exatamente em lugares. Portanto, selecione aqueles que coloque fora dos subconjuntos possíveis , dando a cada probabilidade igual. (Esta é apenas uma amostra do subscritos fora do sem substituição.) Que este subconjunto de lugares ser escrito .Eu v i ( JEu Eu i( JEu) Eu I IJ Eu Eu
Desenhe um elemento selecionando independentemente um valor uniformemente no conjunto de escalares diferentes de para todos os e defina . Equivalentemente, crie um vetor selecionando uniformemente aleatoriamente nos escalares diferentes de zero quando e definindo . Defina .w j v j j ∈ I w j = v j u u j j ∈ I u j = 0 w = vW Wj vj j∈I wj=vj u uj j∈I uj=0 w=v+u
O passo 3 é desnecessário no caso binário.
Exemplo
Aqui está uma
R
implementação para ilustrar.Como um exemplo de seu uso:
Demorou segundos para desenhar elementos iid da distribuição que , (o caso binário), e estão diminuindo exponencialmente.10 4 f ( v ) a J = 10 n = 2 v = ( 1 , 1 , … , 1 ) a = ( 2 11 , 2 10 , … , 2 1 )0.2 104 f(v)a J=10 n=2 v=(1,1,…,1) a=(211,210,…,21)
(Este algoritmo não exige que esteja diminuindo; assim, ele gera variáveis aleatórias a partir de qualquer família de localizações, não apenas as unimodais.)a
fonte
Uma amostra de um processo de ponto determinante k modela uma distribuição por subconjuntos que incentivam a diversidade, de modo que itens semelhantes têm menor probabilidade de ocorrerem juntos na amostra. Consulte a amostragem do processo do ponto determinante K por Alex Kulesza, Ben Taskar.
fonte