Estou tentando construir uma prova para um problema em que estou trabalhando e uma das suposições que estou fazendo é que o conjunto de pontos dos quais estou amostrando é denso em todo o espaço. Na prática, estou usando a amostragem de hipercubo latino para obter meus pontos em todo o espaço amostral. O que eu gostaria de saber é se as amostras de hipercubo latino são densas em todo o espaço, se você deixar o tamanho da amostra tender a ? Nesse caso, uma citação para esse fato seria muito apreciada.
sampling
asymptotics
latin-square
latin-hypercube
kjetil b halvorsen
fonte
fonte
Respostas:
Resposta curta: Sim, de maneira probabilística. É possível mostrar que, dada qualquer distância , qualquer subconjunto finito do espaço da amostra e qualquer 'tolerância' prescrita , para tamanhos de amostra adequadamente grandes, podemos ser certifique-se de que a probabilidade de que haja um ponto de amostra a uma distância de seja para todos os .{ x 1 , … , x m } δ > 0 ϵ x i > 1 - δ i = 1 , … , mϵ>0 {x1,…,xm} δ>0 ϵ xi >1−δ i=1,…,m
Resposta longa: Não conheço nenhuma citação diretamente relevante (mas veja abaixo). A maior parte da literatura sobre a amostragem de hipercubo latino (LHS) está relacionada às suas propriedades de redução de variância. A outra questão é: o que significa dizer que o tamanho da amostra tende a ? Para amostragem aleatória simples de IID, uma amostra do tamanho pode ser obtida de uma amostra do tamanho anexando uma amostra independente adicional. Para o LHS, acho que você não pode fazer isso, pois o número de amostras é especificado antecipadamente como parte do procedimento. Assim, parece que você tem que tomar uma série de independentes amostras LHS de tamanho .n N - 1 1 , 2 , 3 , . . .∞ n n−1 1,2,3,...
Também precisa haver alguma maneira de interpretar 'denso' no limite, pois o tamanho da amostra tende a . A densidade não parece ser determinante para o LHS, por exemplo, em duas dimensões, você pode escolher uma sequência de amostras de tamanho do LHS modo que todas fiquem na diagonal de . Portanto, algum tipo de definição probabilística parece necessária. Seja, para todo , uma amostra do tamanho gerado de acordo com algum mecanismo estocástico. Assume-se que, para diferentes , estas amostras são independentes. Então, para definir a densidade assintótica, podemos exigir que, para cada , e para cada∞ 1,2,3,... [0,1)2 n Xn=(Xn1,Xn2,...,Xnn) n n ϵ>0 x no espaço de amostra (assumido como ), temos ( como ).[0,1)d P(min1≤k≤n∥Xnk−x∥≥ϵ)→0 n→∞
Se a amostra for obtida colhendo amostras independentes da distribuição ('amostragem aleatória IID'), então que é o volume da esfera dimensional do raio . Portanto, certamente, a amostragem aleatória do DII é assintoticamente densa.Xn n U([0,1)d)
Agora considere o caso em que as amostras são obtidas pelo LHS. O teorema 10.1 nestas notas afirma que os membros da amostra estão todos distribuídos como . No entanto, as permutações usadas na definição de LHS (embora independentes para diferentes dimensões) induzem alguma dependência entre os membros da amostra ( ), portanto é menos óbvio que a propriedade de densidade assintótica se mantém.Xn Xn U([0,1)d) Xnk,k≤n
Corrija e . Defina . Queremos mostrar que . Para fazer isso, podemos usar a Proposição 10.3 nessas notas , que é uma espécie de Teorema do Limite Central para Amostragem de Hipercubo Latino. Defina por se estiver na esfera do raio torno de , caso contrário. A proposição 10.3 nos diz que que eϵ>0 x∈[0,1)d Pn=P(min1≤k≤n∥Xnk−x∥≥ϵ) Pn→0 f:[0,1]d→R f(z)=1 z ϵ x f(z)=0 Yn:=n−−√(μ^LHS−μ)→dN(0,Σ) μ=∫[0,1]df(z)dz μ^LHS=1n∑ni=1f(Xni) .
Tome . Eventualmente, para grande o suficiente , teremos . Então, eventualmente, teremos . Portanto, , em que é o cdf normal padrão. Como era arbitrário, segue-se que conforme necessário.L>0 n −n−−√μ<−L Pn=P(Yn=−n−−√μ)≤P(Yn<−L) lim supPn≤lim supP(Yn<−L)=Φ(−LΣ√) Φ L Pn→0
Isso prova a densidade assintótica (conforme definido acima) para a amostragem aleatória iid e o LHS. Informalmente, isso significa que, dado qualquer e no espaço de amostragem, a probabilidade de a amostra chegar a de pode ser tão próxima de 1 quanto você desejar, escolhendo o tamanho da amostra suficientemente grande. É fácil estender o conceito de densidade assintótica para aplicar a subconjuntos finitos do espaço amostral - aplicando o que já sabemos a cada ponto do subconjunto finito. Mais formalmente, isso significa que podemos mostrar: para qualquer e qualquer subconjunto finito do espaço da amostra,ϵ x ϵ x ϵ>0 {x1,...,xm} min1≤j≤mP(min1≤k≤n∥Xnk−xj∥<ϵ)→1 (como ).n→∞
fonte
Não tenho certeza se é isso que você quer, mas aqui vai.
Você está amostrando LHS pontos de , digamos. Argumentaremos de maneira muito informal que, para qualquer , o número esperado de (hiper) cuboides de tamanho em cada dimensão chega a zero como .n [0,1)d ϵ>0 ϵ n→∞
Seja modo que, se dividirmos uniformemente em cubos minúsculos - microcubóides , digamos - de largura então cada largura - cubóide contém pelo menos um microcubóide. Portanto, se pudermos mostrar que o número esperado de microcubóides não amostrados é zero, no limite de , então terminamos. (Observe que nossos microcubóides são organizados em uma grade regular, mas os -cuboids podem estar em qualquer posição.)m=⌈2/ϵ⌉ [0,1)d md 1/m ϵ n→∞ ϵ
A chance de perder completamente um determinado microcubóide com o primeiro ponto de amostra é , independente de , pois o primeiro conjunto de coordenadas de amostra (primeiro ponto de amostra) pode ser escolhido livremente. Dado que todos os primeiros pontos de amostra perderam esse microcubóide, os pontos de amostra subsequentes terão mais dificuldade em errar (em média); portanto, a chance de todos os pontos em falta é menor que .1−m−d n d n (1−m−d)n
Existem microcubóides em , portanto o número esperado que está faltando é delimitado acima por - porque as expectativas adicionam - o que é zero no limite como .md [0,1)d md(1−m−d)n n→∞
Atualizações ...
(1) Aqui está uma figura mostrando como, por dado , você pode escolher grande o suficiente para que uma grade de "microcuboids" (quadrados nesta ilustração bidimensional) garanta a presença de pelo menos um microcubóide qualquer região de tamanho . Eu mostrei duas regiões "aleatoriamente" - escolhidas e pintei de roxo os dois microcubóides que eles contêm.ϵ m m×m ϵ×ϵ ϵ×ϵ
(2) Considere qualquer microcubóide em particular. Possui volume , uma fração de todo o espaço. Portanto, a primeira amostra do LHS - que é a única escolhida completamente livremente - perderá a amostra com probabilidade . O único fato importante é que esse é um valor fixo (deixaremos , mas manteremos constante) menor que .(1/m)d m−d 1−m−d n→∞ m 1
(3) Agora pense no número de pontos de amostra . Eu ilustrei na imagem. O LHS funciona em uma malha fina desses minúsculos "nanocuboids" (se você preferir), e não nos maiores "microcuboids", mas isso não é importante na prova. A prova precisa apenas da afirmação levemente ondulada de que fica gradualmente mais difícil, em média, continuar perdendo um determinado microcubóide à medida que você perde mais pontos. Portanto, havia uma probabilidade de para o primeiro ponto do LHS ausente, mas menor que para todos os deles faltando: isso é zero no limite comon>m n=6m n−1×n−1 m−1×m−1 1−m−d (1−m−d)n n n→∞ .
(4) Todos esses epsilons são bons para uma prova, mas não são ótimos para sua intuição. Assim, são aqui um par de imagens que ilustra a e amostras pontos, com a maior área vazia rectangular em destaque. (A grade é a grade de amostragem do LHS - os "nanocubóides" mencionados anteriormente.) Deveria ser "óbvio" (em algum sentido intuitivo) que a maior área vazia encolherá para um tamanho arbitrariamente pequeno conforme o número de pontos de amostra .n=10 n=50 n→∞
fonte