Quais são alguns usos importantes da geração de números aleatórios em estatística computacional?

15

Como e por que os RNGs são importantes na estatística computacional?

Entendo que a aleatoriedade é importante ao escolher amostras para muitos testes estatísticos, a fim de evitar distorções em relação a qualquer hipótese, mas existem outras áreas da estatística computacional em que os geradores de números aleatórios são importantes?

Patrick
fonte
4
Intimamente relacionados: stats.stackexchange.com/q/135665/35989
Tim
11
O que você está perguntando? Sua pergunta realmente não faz muito sentido.
Carl Witthoft 31/01
2
Talvez seja melhor solicitar áreas nas quais elas não são importantes. Provavelmente seria uma lista mais curta.
John Coleman
2
A pergunta é ampla, mas o título é atraente e a resposta de Matthew é uma boa visão geral. Eu votei para reabrir!
Benoit Sanchez
3
Isso é claramente amplo demais para os padrões convencionais de SE, e equivale a uma pergunta de "grande lista" que provavelmente acumulará muitas respostas pequenas e pouco elaboradas que geralmente duplicam as respostas já fornecidas. No entanto, parece haver algum valor real aqui. Um compromisso é que isso seja protegido pela CW. No futuro, as respostas que mencionarem algo sem elaboração e / ou que usos duplicados já mencionados serão excluídas imediatamente e sem comentários.
gung - Restabelece Monica

Respostas:

17

Existem muitos, muitos exemplos. Muitos para listar, e provavelmente muitos para que alguém possa conhecer completamente (além de possivelmente @whuber, que nunca deve ser subestimado).

Como você mencionou, em experimentos controlados , evitamos o viés de amostragem dividindo aleatoriamente os indivíduos em grupos de tratamento e controle.

No bootstrapping , aproximamos a amostragem repetida de uma população por amostragem aleatória com substituição de uma amostra fixa. Isso nos permite estimar a variação de nossas estimativas, entre outras coisas.

Na validação cruzada , estimamos o erro fora da amostra de uma estimativa dividindo aleatoriamente nossos dados em fatias e montando conjuntos de treinamento e teste aleatórios.

Nos testes de permutação , usamos permutações aleatórias para amostrar sob a hipótese nula, permitindo realizar testes de hipótese não paramétricos em uma ampla variedade de situações.

No empacotamento , controlamos a variação de uma estimativa executando repetidamente estimativas em amostras de bootstrap de dados de treinamento e, em seguida, calculando a média dos resultados.

Em florestas aleatórias , controlamos ainda mais a variação de uma estimativa, amostrando também aleatoriamente os preditores disponíveis em todos os pontos de decisão.

Na simulação , solicitamos a um modelo de ajuste que gere aleatoriamente novos conjuntos de dados que possamos comparar com dados de treinamento ou teste, ajudando a validar o ajuste e as suposições em um modelo.

Na cadeia de Markov, Monte Carlo , coletamos amostras de uma distribuição explorando o espaço de possíveis resultados usando uma cadeia de Markov (graças a @Ben Bolker por este exemplo).

Essas são apenas as aplicações comuns e cotidianas que vêm à mente imediatamente. Se eu cavasse fundo, provavelmente poderia dobrar o comprimento dessa lista. A aleatoriedade é um objeto importante de estudo e uma ferramenta importante a ser exercida.

Matthew Drury
fonte
Isso tudo é verdade, mas não resolve o problema principal: um PRNG com qualquer tipo de estrutura resultante ou previsibilidade na sequência fará com que as simulações falhem.
Carl Witthoft 31/01
3
Uma das coisas que merece destaque são os custos computacionais e de memória da geração de grandes números de números aleatórios ou pseudo-aleatórios. Algumas aplicações de RNGs em estatísticas exigem centenas a milhões de números aleatórios, mas algumas exigem muitas ordens de magnitude mais que incidem sobre esses dois custos.
Alexis
5

Isso tudo é verdade, mas não resolve o problema principal: um PRNG com qualquer tipo de estrutura resultante ou previsibilidade na sequência fará com que as simulações falhem. Carl Witthoft 31 de janeiro às 15:51

Se essa é sua preocupação, talvez o título da pergunta deva ser alterado para "Impacto da escolha da RNG nos resultados de Monte Carlo" ou algo assim. Nesse caso, já considerado na validação cruzada SE , aqui estão algumas instruções

Xi'an
fonte