Como usar / interpretar a distribuição empírica?

8

Antes de mais nada, gostaria de me desculpar pelo título vago. Ainda não consegui formular um título melhor agora. Sinta-se à vontade para mudar ou me aconselhar a mudar o título para melhor se encaixar no cerne da questão. .

Agora, sobre a questão em si, tenho trabalhado em um software no qual me deparei com a idéia de usar uma distribuição empírica para amostragem, mas agora que ela foi implementada não tenho certeza de como interpretar tudo. Permitam-me descrever o que fiz e por que:

Eu tenho vários cálculos para um conjunto de objetos, obtendo uma pontuação final. A pontuação, no entanto, é muito ad-hoc. Portanto, para entender a pontuação de um objeto em particular, o que faço é fazer um grande número (N = 1000) de cálculos de pontuações com valores simulados / gerados aleatoriamente, produzindo 1000 pontuações simuladas. A estimativa de uma "distribuição de pontuação" empírica para esse objeto específico é alcançada por esses 1000 valores de pontuação simulada.

Eu implementei isso em Java (como o restante do software também é escrito em ambiente Java) usando a biblioteca de matemática Apache Commons , em particular a EmpiricalDistImplclasse . De acordo com a documentação que esta classe usa:

o que equivale ao método variável do kernel com suavização gaussiana: digerindo o arquivo de entrada

  1. Passe o arquivo uma vez para calcular min e max.
  2. Divida o intervalo de min-max em binCount "compartimentos".
  3. Passe o arquivo de dados novamente, computando contagens de bin e estatísticas univariadas (média, desvio padrão) para cada um dos compartimentos
  4. Divida o intervalo (0,1) em subintervalos associados aos compartimentos, com o comprimento do subintervalo de um compartimento proporcional à sua contagem.

Agora, minha pergunta é: faz sentido amostrar dessa distribuição para calcular algum tipo de valor esperado? Em outras palavras, em quanto eu poderia confiar / confiar nessa distribuição? Por exemplo, eu poderia tirar conclusões sobre a importância de observar uma pontuação verificando a distribuição?S

Percebo que essa talvez seja uma maneira pouco ortodoxa de encarar um problema como esse, mas acho que seria interessante entender melhor o conceito de distribuições empíricas e como elas podem / não podem ser usadas na análise.

posdef
fonte
Se eu entendi corretamente, sua distribuição final é basicamente tão boa quanto seus "valores simulados / gerados aleatoriamente" para os objetos. Então - você acha que já experimentou bem a distribuição de seus "objetos"?
AVB
@AVB: não tanto a distribuição do objeto, mas a distribuição das pontuações para um objeto em particular. Acho que meu objetivo é: A) Certifique-se de que o cálculo da pontuação seja sólido e não inclinado para diferentes propriedades dos objetos em questão; e B) Ser capaz de dizer algo sobre a importância da pontuação calculada a partir de dados experimentais reais
posdef em 21/03/11
Você pode considerar coletar mais amostras de seus objetos.
John Salvatier 21/03
@ John: você quer dizer aumentar o número de 1000 para, digamos 10K? Eu estava pensando sobre isso também, mas não tinha certeza de como seria bom, considerando o tempo de computação. Alguma idéia sobre isso?
22411 posdef
Não conheço uma maneira fácil de quantificar a diferença. Pode ser instrutivo observar vários histogramas ou densidades do núcleo (com os olhos) com diferentes números de pontos.
John Salvatier 22/03

Respostas:

5

Distribuições empíricas são usadas o tempo todo para inferência, então você está definitivamente no caminho certo! Um dos usos mais comuns de distribuições empíricas é o bootstrap. De fato, você nem precisa usar nenhuma das máquinas descritas acima. Em poucas palavras, você faz muitos sorteios (com substituição) das amostras originais de maneira uniforme e os resultados podem ser usados ​​para calcular os intervalos de confiança nas quantidades estatísticas previamente calculadas. Além disso, essas amostras têm propriedades de convergência teórica bem desenvolvidas. Confira o artigo da Wikipedia sobre o tópico aqui .

Gary
fonte
Obrigado pela sua resposta, Gary. Eu estou familiarizado com os métodos de inicialização, mas não sei como (leia-se: onde na análise) você sugere que eu implemente a inicialização. De quais amostras originais estamos falando?
22411 pos posff
N=1000Nμ^NMM{μ^i}i=1Mμ^N
Gary
P(x>xobs)xF^1000(x)μ^N
yF(y)N=1000q^MMq^q^. O ponto principal é que a amostra original pode fornecer a estatística e o bootstrap fornece o IC. Talvez a verdadeira questão seja o que você quer fazer com a distribuição empírica.
Gary