Encontrar precisão da estimativa de simulação de Monte Carlo

fundo

Estou projetando uma simulação de Monte Carlo que combina os resultados de séries de modelos e quero ter certeza de que a simulação me permitirá fazer afirmações razoáveis sobre a probabilidade do resultado simulado e a precisão dessa estimativa de probabilidade.

A simulação encontrará a probabilidade de um júri de uma comunidade especificada condenar um determinado réu. Estas são as etapas da simulação:

Usando dados existentes, gere um modelo de probabilidade logística ( M ) regredindo o “voto do primeiro jurado” nos preditores demográficos.
Use os métodos de Monte Carlo para simular 1.000 versões de M (ou seja, 1000 versões dos coeficientes para os parâmetros do modelo).
Selecione uma das 1.000 versões do modelo ( M _i ).
Empanel 1.000 júris, selecionando aleatoriamente 1.000 conjuntos de 12 "jurados" de uma "comunidade" ( C ) de indivíduos com distribuições de características demográficas especificadas.
Calcule deterministicamente a probabilidade de um primeiro voto de culpado para cada jurado usando M _i .
Transforme o voto provável de cada "jurado" em um voto determinado (com base em se é maior ou menor que o valor selecionado aleatoriamente entre 0-1).
Determine a “votação final” de cada "júri" usando um modelo (derivado de dados empíricos) da probabilidade de um júri condenar, dependendo da proporção de jurados que votam por condenação na primeira votação.
Armazene a proporção de veredictos de culpados para os 1000 júris ( PG _i ).
Repita os passos 3-8 para cada um dos 1.000 versões simuladas de M .
Calcular o valor médio de PG e relatório que, como a estimativa pontual da probabilidade de condenação em C .
Identifique os valores dos percentis 2,5 e 97,5 para PG e relate isso como intervalo de confiança de 0,95.

Atualmente, estou usando 1.000 jurados e 1.000 jurados na teoria de que 1.000 sorteios aleatórios de uma distribuição de probabilidade - características demográficas de C ou versões de M preencherão essa distribuição.

Questões

Isso me permitirá determinar com precisão a precisão da minha estimativa? Se assim for, quantos júris que preciso empanel para cada PG _i cálculo para cobrir C distribuição de probabilidade (de modo que viés selecção evitar) 's; posso usar menos de 1.000?

Muito obrigado por qualquer ajuda!

confidence-interval monte-carlo standard-error simulation Maggie
fonte

Apenas por curiosidade: algo neste modelo depende de se o acusado é realmente culpado ?

whuber

O modelo é baseado nas respostas da pesquisa a um único padrão de fatos, portanto a culpa real não varia. Estou prevendo como diferentes júris sairiam em um único caso contestado.

Maggie #

OK, brincando, você relata três estimativas: a média e os percentis 2,5 e 97,5 do PG. Para qual deles você precisa de uma determinação "precisa" e quão precisa deve ser?

whuber

Além disso, o passo (6) é misterioso. Você poderia explicar o que se pretende fazer? Existe um "valor selecionado aleatoriamente" diferente para cada jurado (5), cada júri (4), cada modelo (3) ou alguma combinação dos mesmos?

whuber

(Veja o comentário acima) Acho que posso reduzir (a) o número de júris. O erro de amostragem é uma função do número de amostras. Com 1.000 júris por modelo, tenho um milhão de amostras no total. O erro de amostragem associado a 10 ^ 6 amostras é de ~ 0,1%. Se eu usar apenas 35 júris por modelo, teria 3,5 * 10 ^ 4 amostras e erro de amostragem de 0,5%. Esse erro de amostragem é muito menor que o erro de medição de ~ 5,0%. Portanto, eu deveria poder usar 35 júris por modelo e apenas usar o erro de medição para estimar meu intervalo de confiança.

Maggie # 2

Respostas:

Existe um critério geral e "dentro do universo" para a bondade de Monte Carlo - convergência.

Atenha-se a um M e verifique como o PG se comporta com o número de júris - ele deve convergir; assim, mostrará várias repetições para as quais você terá um número razoável (para sua aplicação) de dígitos significativos. Repita esse benchmark para algumas outras Ms para ter certeza de que você não teve sorte com a seleção M e, em seguida, continue com a simulação inteira.

fonte

Não tenho certeza se alguém respondeu totalmente à pergunta. Ela tem duas partes: (1) A estratégia de modelagem descrita fornece uma solução defensável para o problema que ela deseja resolver - ou seja, qual é a probabilidade de um júri escolhido aleatoriamente de uma comunidade, C , com características demográficas especificadas votar para encontrar um réu culpado? E (2) Se a estratégia de modelagem é razoável, quantos "júris" ela deve selecionar e quantos "veredictos" ela deve simular para cada um, para relatar uma estimativa defensável do prob de condenação e 0,95 IC? Ela quer economizar em computação. Veja seu último comentário

dmk38

Parece-me que o problema aqui é se o modelo é muito complexo para ser observado sem usar a simulação de Monte Carlo.

Se o modelo for relativamente simples, será possível analisá-lo por meio de estatísticas convencionais e derivar uma solução para a pergunta que está sendo feita, sem executar o modelo novamente várias vezes. Isso é um pouco de simplificação, mas se todo o seu modelo produziu pontos com base em uma distribuição normal, você poderia derivar facilmente o tipo de resposta que está procurando. Obviamente, se o modelo é simples assim, é improvável que você precise fazer uma simulação de Monte Carlo para encontrar suas respostas.

Se o problema é complexo e não é possível decompô-lo para mais elementar, o Monte-Carlo é o tipo certo de modelo a ser usado, mas não creio que exista nenhuma maneira de definir limites de confiança sem executar o modelo. Por fim, para obter o tipo de limites de confiança descrito, o modelo precisaria ser executado várias vezes, uma distribuição de probabilidade teria que ser adequada às saídas e a partir daí os limites de confidencialidade poderiam ser definidos. Um dos desafios da simulação de Monte-Carlo é que os modelos fornecem respostas boas e regulares para distribuições na faixa intermediária, mas as caudas geralmente fornecem resultados muito mais variáveis, o que significa mais execuções para definir o formato das saídas em 2,5% e Percentis de 97,5%.

Ian Turner
fonte