Esta pergunta é derivada desta sobre a "regra .632". Estou escrevendo com referência particular à resposta / notação do user603 na medida em que simplifica as coisas.
Essa resposta começa com uma amostra do tamanho com substituição, de itens distintos na coleção (chame) de N. A probabilidade de que a amostra seja diferente de um determinado elemento de N é então
Nesta resposta, todos os elementos de N têm igual chance de serem sorteados aleatoriamente.
Minha pergunta é a seguinte: suponha que, na pergunta acima, os itens a serem desenhados sejam tais que sejam distribuídos normalmente. Ou seja, subdividimos a curva normal padrão de a em (digamos) 100 subintervalos de comprimento igual. Cada um dos 100 itens em N tem uma probabilidade de ser desenhada igual à área subtendida pela curva em seu respectivo intervalo.
Meu pensamento foi o seguinte:
O raciocínio é semelhante ao da resposta vinculada, eu acho. A probabilidade de que , com um elemento de N, é na qual é a probabilidade de desenhar
A probabilidade de um elemento m específico estar na amostra S de tamanho n é
= 1 - n ∏ 1 ( 1 - F i ) .
Um cálculo parece mostrar que, à medida que o comprimento dos subintervalos diminui, a resposta converge para o mesmo número que no primeiro caso (probabilidades de todas iguais).
Isso parece contra-intuitivo (para mim) porque a construção parece incluir elementos de N que são raros, então eu esperaria um número menor que 0,632.
Além disso, se isso estiver correto, acho que teríamos
que ainda não sei como verdadeiro ou falso.
Edit: Se for verdade, provavelmente generalizaria alguns.
Obrigado por qualquer insight.
fonte
Respostas:
A pergunta é sobre o comportamento limitante da
à medida que cresce e o encolhe uniformemente de tal maneira que (a) todos são não negativos e (b) somam à unidade. (Eles decorrem da construção do e dos axiomas da probabilidade.)F i F in Fi Fi
Por definição, este produto é o exponencial de seu logaritmo:
O Teorema de Taylor (com a forma Lagrange do restante) , aplicado a , estabelece quelog
para alguns no intervalo . Em outras palavras, esses logaritmos são iguais a até termos que são no máximo vezes . Mas quando é grande o suficiente para garantir que todos os sejam menores que alguns (uma condição assegurada pelo encolhimento uniforme de ), então (b) implica e portantoϕi [0,Fi] −Fi 1/2 F2i n Fi ϵ>0 Fi nϵ>∑Fi=1
Consequentemente
espremer o logaritmo entre duas seqüências convergindo para . Como é contínuo, o produto converge para o exponencial desse limite, . Consequentemente−1 exp ∏ni=1(1−Fi) exp(−1)
QED .
Uma análise mais detalhada dessa análise estabelece que o erro nessa aproximação (que sempre será um limite inferior ) não é maior em tamanho que Por exemplo, a divisão de uma distribuição normal padrão em fatias entre e produz um máximo próximo ao modo , onde será aproximadamente igual à área de um retângulo, . . O limite anterior estabelece que o valor da fórmula estará dentro de do seu valor limite. O erro real é uma ordem de magnitude menor,n=400-44 F i 0exp(-1 / 2) / 50≈0,012(1)0,0110,001041 f i 1
R
( no qual podemos confiar, porque nenhum dos é verdadeiramente pequeno em relação a ):De fato,0.6331615… 1−exp(−1) 0.6321206…
1 - prod(1-f)
é enquanto é .1 - exp ( - 1 ) 0,6321206 …fonte