fundo
Estou projetando uma simulação de Monte Carlo que combina os resultados de séries de modelos e quero ter certeza de que a simulação me permitirá fazer afirmações razoáveis sobre a probabilidade do resultado simulado e a precisão dessa estimativa de probabilidade.
A simulação encontrará a probabilidade de um júri de uma comunidade especificada condenar um determinado réu. Estas são as etapas da simulação:
Usando dados existentes, gere um modelo de probabilidade logística ( M ) regredindo o “voto do primeiro jurado” nos preditores demográficos.
Use os métodos de Monte Carlo para simular 1.000 versões de M (ou seja, 1000 versões dos coeficientes para os parâmetros do modelo).
Selecione uma das 1.000 versões do modelo ( M i ).
Empanel 1.000 júris, selecionando aleatoriamente 1.000 conjuntos de 12 "jurados" de uma "comunidade" ( C ) de indivíduos com distribuições de características demográficas especificadas.
Calcule deterministicamente a probabilidade de um primeiro voto de culpado para cada jurado usando M i .
Transforme o voto provável de cada "jurado" em um voto determinado (com base em se é maior ou menor que o valor selecionado aleatoriamente entre 0-1).
Determine a “votação final” de cada "júri" usando um modelo (derivado de dados empíricos) da probabilidade de um júri condenar, dependendo da proporção de jurados que votam por condenação na primeira votação.
Armazene a proporção de veredictos de culpados para os 1000 júris ( PG i ).
Repita os passos 3-8 para cada um dos 1.000 versões simuladas de M .
Calcular o valor médio de PG e relatório que, como a estimativa pontual da probabilidade de condenação em C .
Identifique os valores dos percentis 2,5 e 97,5 para PG e relate isso como intervalo de confiança de 0,95.
Atualmente, estou usando 1.000 jurados e 1.000 jurados na teoria de que 1.000 sorteios aleatórios de uma distribuição de probabilidade - características demográficas de C ou versões de M preencherão essa distribuição.
Questões
Isso me permitirá determinar com precisão a precisão da minha estimativa? Se assim for, quantos júris que preciso empanel para cada PG i cálculo para cobrir C distribuição de probabilidade (de modo que viés selecção evitar) 's; posso usar menos de 1.000?
Muito obrigado por qualquer ajuda!
Respostas:
Existe um critério geral e "dentro do universo" para a bondade de Monte Carlo - convergência.
Atenha-se a um M e verifique como o PG se comporta com o número de júris - ele deve convergir; assim, mostrará várias repetições para as quais você terá um número razoável (para sua aplicação) de dígitos significativos. Repita esse benchmark para algumas outras Ms para ter certeza de que você não teve sorte com a seleção M e, em seguida, continue com a simulação inteira.
fonte
Parece-me que o problema aqui é se o modelo é muito complexo para ser observado sem usar a simulação de Monte Carlo.
Se o modelo for relativamente simples, será possível analisá-lo por meio de estatísticas convencionais e derivar uma solução para a pergunta que está sendo feita, sem executar o modelo novamente várias vezes. Isso é um pouco de simplificação, mas se todo o seu modelo produziu pontos com base em uma distribuição normal, você poderia derivar facilmente o tipo de resposta que está procurando. Obviamente, se o modelo é simples assim, é improvável que você precise fazer uma simulação de Monte Carlo para encontrar suas respostas.
Se o problema é complexo e não é possível decompô-lo para mais elementar, o Monte-Carlo é o tipo certo de modelo a ser usado, mas não creio que exista nenhuma maneira de definir limites de confiança sem executar o modelo. Por fim, para obter o tipo de limites de confiança descrito, o modelo precisaria ser executado várias vezes, uma distribuição de probabilidade teria que ser adequada às saídas e a partir daí os limites de confidencialidade poderiam ser definidos. Um dos desafios da simulação de Monte-Carlo é que os modelos fornecem respostas boas e regulares para distribuições na faixa intermediária, mas as caudas geralmente fornecem resultados muito mais variáveis, o que significa mais execuções para definir o formato das saídas em 2,5% e Percentis de 97,5%.
fonte