Dados números, em que o valor de cada número é diferente, indicado como , e a probabilidade de selecionar cada número é , respectivamente.
Agora, se eu selecionar números base nas probabilidades fornecidas, onde , qual é a expectativa da soma desses números ? Observe que a seleção é sem substituição, para que os números não possam envolver números duplicados. Entendo que, se a seleção for com substituição, a expectativa da soma dos números é igual a , onde
Além disso, e a expectativa da variação desses números ?
Eu sou um estudante de doutorado em CS que está trabalhando em um problema de grande volume de dados e não tenho formação em estatística. Espero que alguém possa me dar uma fórmula como resposta. No entanto, se a resposta for muito complicada para ser descrita por uma fórmula ou for necessário envolver computação intensiva, uma resposta aproximada é totalmente aceitável.
Você pode assumir que aqui é bastante grande e a probabilidade pode variar muito. Na prática, os valores dessas probabilidades vêm de um log de consultas, que registra uma série de consultas de agregação. O ponto é que a frequência de cada número envolvido nas consultas pode ser bastante distorcida, ou seja, alguns são raramente consultados, enquanto outros são consultados com muita frequência. Você pode assumir que a distribuição de probabilidade é distribuição normal, distribuição zipf ou qualquer outra alternativa razoável.
A distribuição de valor é apenas um subconjunto contíguo de qualquer distribuição possível. Em outras palavras, se você tiver um histograma que represente uma determinada distribuição, todos os números envolvidos nesse problema serão todos em um único intervalo.
Em termos do valor de K, você pode supor que seja sempre menor que o número de elementos frequentemente consultados.
fonte
Respostas:
Provavelmente, essa é a natureza de uma resposta que, embora exata, provavelmente não é tão útil. Horvitz e Thompson (1952) fornecem resultados que cobrem essa situação em geral. Esses resultados são dados em termos das expressões combinatórias que se pode esperar.
Para manter a consistência com a notação e também corresponder melhor com a notação mais usada, permita-me redefinir algumas quantidades. Deixe que é o número de elementos na população e ser o tamanho da amostra.nN n
Seja , , represente os elementos da população, com os valores , e probabilidades de seleção . Para uma determinada amostra de tamanho , permita que os valores observados na amostra sejam . i = 1 , . . . , N N V i i = 1 , . . . , N p 1 , . . . , P N N v 1 , . . . , v nvocêEu i = 1 , . . . , N N VEu i = 1 , . . . , N p1 1, . . . , pN n v1 1, . . . , vn
O que se deseja é a média e a variação do total da amostra
Como mencionado nos comentários, a probabilidade de selecionar uma amostra específica desenhada nessa ordem é onde a probabilidade inicial de desenhar é dada por , a segunda probabilidade de desenhar depende de ter removido da população e assim por diante. Portanto, cada unidade subsequente sorteada resulta em uma nova distribuição de probabilidade para a próxima unidade (portanto, a escolha de letras indiciais diferentes, porque cada uma representa uma distribuição diferente).Pr ( s ) = p i 1 p j 2 ⋯ p t n , ps = { uEu, uj, . . . , ut}
Existem amostras de tamanho que contêm de toda a população. Observe que isso leva em conta opermutações da amostra. nuin!
Deixe denotar uma amostra específica de tamanho que inclui . Então, a probabilidade de selecionar o elemento é dada por onde a soma está acima do conjunto de tamanho de todas as amostras possíveis do tamanho que contêm . (Mudei a notação um pouco do papel, pois me pareceu confuso.) n u i u i P ( u i ) = ∑ Pr ( ss(i)n n ui ui S(i)s ( i ) n nui
Da mesma forma, defina como o número de amostras que contêm e . Em seguida, podemos definir a probabilidade de uma amostra contendo ambos como onde a soma está acima do conjunto de tamanho de todas as amostras possíveis de tamanho que contêm e . uiuj
O valor esperado é então derivado como
Embora a variância não é derivado explicitamente no papel, pode ser obtido a partir de expections do th momento e os produtos cruzados E ( n ∑ i = 1 v q i ) = N ∑q E ( n ∑ i ≠ j v i v j ) = ∑ i ≠ j P ( u i u j ) V i V j .
Em outras palavras, parece que seria necessário passar por todos os subconjuntos possíveis para fazer esses cálculos. Talvez isso possa ser feito para valores menores de , no entanto.n
Horvitz, DG e Thompson, DJ (1952) Uma generalização da amostragem sem substituição de um universo finito. Jornal da Associação Estatística Americana 47 (260): 663-685.
fonte