Bootstrap vs Monte Carlo, estimativa de erro

12

Estou lendo o artigo Propagação de erros pelo método de Monte Carlo em cálculos geoquímicos, Anderson (1976) e há algo que não entendo direito.

Considere alguns dados medidos e um programa que os processe e retorne um determinado valor. No artigo, este programa é usado para obter primeiro o melhor valor usando as médias dos dados (ou seja: ).{ A , B , C }{A±σA,B±σB,C±σC}{A,B,C}

O autor então usa um método de Monte Carlo para atribuir uma incerteza a esse melhor valor, variando os parâmetros de entrada dentro de seus limites de incerteza (dados por uma distribuição gaussiana com médias e desvios padrão ) antes de alimentá-los no programa. Isto é ilustrado na figura abaixo:{ σ A , σ B , σ C }{A,B,C}{σA,σB,σC}

insira a descrição da imagem aqui

( Direitos autorais: ScienceDirect )

onde a incerteza pode ser obtida a partir da distribuição final .Z

O que aconteceria se, em vez deste método de Monte Carlo, eu aplicasse um método de autoinicialização? Algo assim:

insira a descrição da imagem aqui

Isto é: em vez de variar os dados dentro de suas incertezas antes de alimentá-los para o programa, eu faço uma amostra com a substituição deles.

Quais são as diferenças entre esses dois métodos neste caso? Quais advertências devo estar ciente antes de aplicar qualquer uma delas?


Estou ciente dessa pergunta Bootstrap, Monte Carlo , mas isso não resolve minha dúvida, pois, neste caso, os dados contêm incertezas atribuídas.

Gabriel
fonte
Apenas para esclarecer: a "mudança aleatória" no método MC é gerada aleatoriamente pelo pesquisador? Ou seja, ruídos / erros estão sendo adicionados artificialmente aos dados de entrada?
shadowtalker 7/09/16
É "gerado aleatoriamente", com base nas incertezas dos dados medidos (ie: os s) e assumindo uma certa distribuição para esses erros (geralmente gaussianos). Portanto, não, os erros não são adicionados artificialmente. Os dados de entrada possuem um erro associado, fornecido pelo processo de medição. σ
Gabriel
Eu acho que não entendo. Isso é o ruído artificial, mas com um desvio padrão calculado a partir dos dados
shadowtalker
Então provavelmente não entendo o que é "ruído artificial" (e o que constituiria "ruído não artificial"). Você viu o artigo? Certamente explica as coisas muito melhor do que eu.
Gabriel
Ruído natural: variação aleatória nos meus dados. Ruído artificial: usando um gerador de números aleatórios para desenhar números de uma distribuição de probabilidade, e adicionando os números para os dados
shadowtalker

Respostas:

7

Pelo que entendi sua pergunta, a diferença entre a abordagem "Monte Carlo" e a abordagem de autoinicialização é essencialmente a diferença entre estatísticas paramétricas e não paramétricas.

Na estrutura paramétrica, sabe-se exatamente como os dados são gerados, ou seja, dados os parâmetros do modelo ( , e etc. em sua descrição), você pode produzir novas realizações desses conjuntos de dados e, a partir deles, novas realizações do seu procedimento estatístico (ou "resultado"). Assim, é possível descrever inteiramente e exatamente a distribuição de probabilidade da saída , seja por derivações matemáticas ou por um experimento de Monte Carlo retornando uma amostra de tamanho arbitrário dessa distribuição. A σ A Zx1,,xNAσAZ

No âmbito não-paramétrico, não se deseja fazer tais suposições sobre os dados e, portanto, usa os dados e somente os dados para estimar sua distribuição, . O bootstrap é uma abordagem desse tipo, na qual a distribuição desconhecida é estimada pela distribuição empírica feita pela definição de um peso de probabilidade de em cada ponto da amostra (no caso mais simples quando os dados são iid). Usando esta distribuição empírica como um substituto para a verdadeira distribuição , pode-se derivar de Monte Carlo simulações da distribuição estimada da saída .F 1 / N F F ZFF^1/nF^FZ

Assim, a principal diferença entre as duas abordagens é se alguém faz ou não essa suposição paramétrica sobre a distribuição dos dados.

Xi'an
fonte
2
Quase dois anos depois, eu sei que essa é a melhor resposta, porque menciona explicitamente a diferença entre as abordagens paramétricas e não paramétricas (que eu não conhecia naquela época). Assim, estou mudando a resposta aceita para esta. .
Gabriel
mas para a abordagem paramétrica, também é possível usar a inicialização paramétrica, certo?
Tom Wenseleers
12

A mudança aleatória no seu modelo de Monte Carlo é representada por uma curva de sino e o cálculo provavelmente assume "erro" ou "mudança" normalmente distribuído. Pelo menos, seu computador precisa de alguma suposição sobre a distribuição a partir da qual extrair a "alteração". O bootstrapping não faz necessariamente essas suposições. Ele toma as observações como observações e, se o erro delas é assimetricamente distribuído, entra no modelo dessa maneira.

O bootstrapping se baseia na observação e, portanto, precisa de várias observações verdadeiras. Se você ler em um livro, esse C calcula a média de 5 com um desvio padrão de 1, você pode configurar um Monte Carlo Modell mesmo que não tenha observações para extrair. Se sua observação é escassa (pense em astronomia), você pode configurar um Monte Carlo Modell com 6 observações e algumas suposições sobre sua distribuição, mas não iniciará a partir de 6 observações.

Modelos múltiplos com alguma entrada extraída dos dados observados e outros com dados simulados (digamos hipotéticos) são possíveis.

Editar: Na discussão a seguir nos comentários, o pôster original encontrou a seguinte ajuda:

O "programa original" não se importa, se obtém um valor, que você calculou de uma média e um desvio ou que é uma verdadeira realização de uma média e um desvio em um processo natural.

Bernhard
fonte
11
N
11
Eu sou autodidata estatisticamente / com aprendizado de máquina, então não vou afirmar que nenhuma das diferenças que mencionei são as únicas. Nem tenho certeza se o Bootstrapping é considerado um método de Monte Carlo em si. Ambos os algoritmos simulam um grande número de cenários realistas. Você pode extrair a entrada de suposições ou observações. Meu campo é medicina e suposições são notoriamente erradas nesse campo. Portanto, eu tentaria acompanhar as observações sempre que elas estiverem disponíveis em números grandes o suficiente. Pode muito bem ser que, em campo mais perto de física ou química, ...
Bernhard
11
... em campos mais próximos da física ou da química, as suposições são mais confiáveis. Quanto ao ponto 2: se você passar por amostras e iterações grandes o suficiente, presumo que você descobrirá que dados reais nunca são realmente normalmente distribuídos e que suas suposições estão sempre um pouco erradas, mas não posso reivindicar nenhum conhecimento. Quanto ao ponto 3: não tenho certeza de ter entendido o que você quer dizer com descartando dados valiosos no método de autoinicialização. "Atribuir incerteza" é feito pelo homem, Data vem da realidade. Novamente, essa é minha crença baseada no meu campo. Na realidade, você raramente têm uma boa teoria e dados grandes
Bernhard
11
σA,σB,σC
11
Cada observação é um valor medido e, portanto, já contém seu próprio erro e incerteza de medição. O "programa original" não se importa, se obtém um valor, que você calculou de uma média e um desvio ou que é uma verdadeira realização de uma média e um desvio em um processo natural. Mas é claro que todas as técnicas de reamostragem dependem de uma grande base de dados e você pode calcular números arbitrários ou aleatórios, mas geralmente não faz números arbitrários de observações. Portanto, nos casos em que você tem um grande número de observações, não vejo, onde os dados são descartados.
Bernhard
1

Se a função que relaciona a saída Z às entradas é razoavelmente linear (ou seja, dentro da faixa de variação das entradas), a variação de Z é uma combinação das variações e covariâncias das entradas. Os detalhes da distribuição não importam muito ... Portanto, os dois métodos devem retornar resultados semelhantes.

Veja o Suplemento 1 ao GUM

Pascal
fonte
O que acontece quando a função não é razoavelmente linear? Como esses dois métodos diferirão então?
Gabriel
Nesse caso, você deve consultar a resposta acima, de Bernhard. Ou seja, para que eles coincidam, você deve ter uma descrição fiel dos dados em pdf para Monte Carlo.
Pascal
0

Bootstrap significa deixar os dados falarem por si mesmos. Com o método Monte Carlo, você experimenta muitos sorteios aleatórios do CDF imposto (normal; gama; beta ...) por meio de distribuição uniforme e cria um PDF empírico (desde que o CDF seja contínuo e derivável). Uma explicação interessante de todo o processo de Monte Carlo é relatada em: Briggs A, Schulper M, Claxton K. Modelagem de decisão para avaliação econômica da saúde. Oxford: Oxford University Press, 2006: 93-95.

Carlo Lazzaro
fonte