Como e por que os RNGs são importantes na estatística computacional?
Entendo que a aleatoriedade é importante ao escolher amostras para muitos testes estatísticos, a fim de evitar distorções em relação a qualquer hipótese, mas existem outras áreas da estatística computacional em que os geradores de números aleatórios são importantes?
Respostas:
Existem muitos, muitos exemplos. Muitos para listar, e provavelmente muitos para que alguém possa conhecer completamente (além de possivelmente @whuber, que nunca deve ser subestimado).
Como você mencionou, em experimentos controlados , evitamos o viés de amostragem dividindo aleatoriamente os indivíduos em grupos de tratamento e controle.
No bootstrapping , aproximamos a amostragem repetida de uma população por amostragem aleatória com substituição de uma amostra fixa. Isso nos permite estimar a variação de nossas estimativas, entre outras coisas.
Na validação cruzada , estimamos o erro fora da amostra de uma estimativa dividindo aleatoriamente nossos dados em fatias e montando conjuntos de treinamento e teste aleatórios.
Nos testes de permutação , usamos permutações aleatórias para amostrar sob a hipótese nula, permitindo realizar testes de hipótese não paramétricos em uma ampla variedade de situações.
No empacotamento , controlamos a variação de uma estimativa executando repetidamente estimativas em amostras de bootstrap de dados de treinamento e, em seguida, calculando a média dos resultados.
Em florestas aleatórias , controlamos ainda mais a variação de uma estimativa, amostrando também aleatoriamente os preditores disponíveis em todos os pontos de decisão.
Na simulação , solicitamos a um modelo de ajuste que gere aleatoriamente novos conjuntos de dados que possamos comparar com dados de treinamento ou teste, ajudando a validar o ajuste e as suposições em um modelo.
Na cadeia de Markov, Monte Carlo , coletamos amostras de uma distribuição explorando o espaço de possíveis resultados usando uma cadeia de Markov (graças a @Ben Bolker por este exemplo).
Essas são apenas as aplicações comuns e cotidianas que vêm à mente imediatamente. Se eu cavasse fundo, provavelmente poderia dobrar o comprimento dessa lista. A aleatoriedade é um objeto importante de estudo e uma ferramenta importante a ser exercida.
fonte
Se essa é sua preocupação, talvez o título da pergunta deva ser alterado para "Impacto da escolha da RNG nos resultados de Monte Carlo" ou algo assim. Nesse caso, já considerado na validação cruzada SE , aqui estão algumas instruções
fonte