Quais são alguns usos importantes da geração de números aleatórios em estatística computacional?

Como e por que os RNGs são importantes na estatística computacional?

Entendo que a aleatoriedade é importante ao escolher amostras para muitos testes estatísticos, a fim de evitar distorções em relação a qualquer hipótese, mas existem outras áreas da estatística computacional em que os geradores de números aleatórios são importantes?

hypothesis-testing monte-carlo algorithms random-generation computational-statistics Patrick
fonte

Intimamente relacionados: stats.stackexchange.com/q/135665/35989

Tim

O que você está perguntando? Sua pergunta realmente não faz muito sentido.

Carl Witthoft 31/01

Talvez seja melhor solicitar áreas nas quais elas não são importantes. Provavelmente seria uma lista mais curta.

John Coleman

A pergunta é ampla, mas o título é atraente e a resposta de Matthew é uma boa visão geral. Eu votei para reabrir!

Benoit Sanchez

Isso é claramente amplo demais para os padrões convencionais de SE, e equivale a uma pergunta de "grande lista" que provavelmente acumulará muitas respostas pequenas e pouco elaboradas que geralmente duplicam as respostas já fornecidas. No entanto, parece haver algum valor real aqui. Um compromisso é que isso seja protegido pela CW. No futuro, as respostas que mencionarem algo sem elaboração e / ou que usos duplicados já mencionados serão excluídas imediatamente e sem comentários.

gung - Restabelece Monica

Respostas:

Existem muitos, muitos exemplos. Muitos para listar, e provavelmente muitos para que alguém possa conhecer completamente (além de possivelmente @whuber, que nunca deve ser subestimado).

Como você mencionou, em experimentos controlados , evitamos o viés de amostragem dividindo aleatoriamente os indivíduos em grupos de tratamento e controle.

No bootstrapping , aproximamos a amostragem repetida de uma população por amostragem aleatória com substituição de uma amostra fixa. Isso nos permite estimar a variação de nossas estimativas, entre outras coisas.

Na validação cruzada , estimamos o erro fora da amostra de uma estimativa dividindo aleatoriamente nossos dados em fatias e montando conjuntos de treinamento e teste aleatórios.

Nos testes de permutação , usamos permutações aleatórias para amostrar sob a hipótese nula, permitindo realizar testes de hipótese não paramétricos em uma ampla variedade de situações.

No empacotamento , controlamos a variação de uma estimativa executando repetidamente estimativas em amostras de bootstrap de dados de treinamento e, em seguida, calculando a média dos resultados.

Em florestas aleatórias , controlamos ainda mais a variação de uma estimativa, amostrando também aleatoriamente os preditores disponíveis em todos os pontos de decisão.

Na simulação , solicitamos a um modelo de ajuste que gere aleatoriamente novos conjuntos de dados que possamos comparar com dados de treinamento ou teste, ajudando a validar o ajuste e as suposições em um modelo.

Na cadeia de Markov, Monte Carlo , coletamos amostras de uma distribuição explorando o espaço de possíveis resultados usando uma cadeia de Markov (graças a @Ben Bolker por este exemplo).

Essas são apenas as aplicações comuns e cotidianas que vêm à mente imediatamente. Se eu cavasse fundo, provavelmente poderia dobrar o comprimento dessa lista. A aleatoriedade é um objeto importante de estudo e uma ferramenta importante a ser exercida.

Matthew Drury
fonte

Isso tudo é verdade, mas não resolve o problema principal: um PRNG com qualquer tipo de estrutura resultante ou previsibilidade na sequência fará com que as simulações falhem.

Carl Witthoft 31/01

Uma das coisas que merece destaque são os custos computacionais e de memória da geração de grandes números de números aleatórios ou pseudo-aleatórios. Algumas aplicações de RNGs em estatísticas exigem centenas a milhões de números aleatórios, mas algumas exigem muitas ordens de magnitude mais que incidem sobre esses dois custos.

Alexis

Isso tudo é verdade, mas não resolve o problema principal: um PRNG com qualquer tipo de estrutura resultante ou previsibilidade na sequência fará com que as simulações falhem. Carl Witthoft 31 de janeiro às 15:51

Se essa é sua preocupação, talvez o título da pergunta deva ser alterado para "Impacto da escolha da RNG nos resultados de Monte Carlo" ou algo assim. Nesse caso, já considerado na validação cruzada SE , aqui estão algumas instruções

Se você está considerando RNGs mal projetados, como o infame RANDU, eles claramente impactarão negativamente a aproximação de Monte Carlo. Para detectar deficiências nos RNGs, existem bancos de benchmarks como os testes Diehard de Marsaglia . (Por exemplo, Park e Miller (1988), o uso do gerador congruencial de Lehmer com o fator 16807 foi encontrado com falta , a ser substituído por 47271 ou 69621. É claro que isso foi substituído por geradores de período massivos como o Mersenne Twister PRNG .)
Uma pergunta SE sobre matemática fornece um link sobre o impacto (ou a falta dela) na estimativa e precisão, se não uma resposta muito útil.
Jeff Rosenthal (U Toronto) tem um artigo em que estuda o impacto em um RNG na convergência de cadeias de Markov (Monte Carlo), mas não consigo encontrá-lo. Recentemente, realizei uma pequena experiência no meu blog sem impacto visível do tipo RNG.
- Por outro lado, um esquema de loteria em Ontário usou geração aleatória mal projetada, que foi identificada por um estatístico, Mohan Srivastava, de Toronto, Canadá, que notificou a Ontario Lottery and Gaming Corporation sobre o problema, em vez de obter um grande lucro com isso. brecha.
Aqui está uma ilustração de um caso em que um simulador de rede clássico é impactado por uma má opção padrão (vinculada a Park e Miller acima).
Existem problemas específicos com a estrutura dos RNGs usados na computação paralela . O uso de várias sementes geralmente não é bom o suficiente, especialmente para geradores congruenciais lineares. Muitas abordagens podem ser encontradas na literatura de computador, incluindo os pacotes de geração aleatória paralela escalável (SPRNG) de Michael Mascagni (incluindo uma versão R) e o criador dinâmico de Matsumoto , um programa C que fornece valores iniciais para fluxos independentes ao usar o twister de Mersenne . Isso também foi abordado no estouro de pilha do SE .
No ano passado, vi uma palestra de Paula Whitlock sobre o impacto da Biblioteca Científica GNU na convergência de passeios aleatórios de alta dimensão, mas não posso.
Para terminar, há também uma literatura sobre a distinção entre RNGs de software e hardware, com alegações de que os médiuns podem impactar mais tarde !

Xi'an
fonte