Do randoness estatístico de Wikipedia :
Aleatoriedade global e aleatoriedade local são diferentes. A maioria das concepções filosóficas de aleatoriedade é global - porque elas se baseiam na idéia de que "a longo prazo" uma sequência parece verdadeiramente aleatória, mesmo que certas sub-sequências não pareçam aleatórias. Em uma sequência "verdadeiramente" aleatória de números de comprimento suficiente, por exemplo, é provável que haja longas sequências de nada além de zeros, embora no geral a sequência possa ser aleatória. A aleatoriedade local refere-se à ideia de que pode haver comprimentos mínimos de sequência nos quais as distribuições aleatórias são aproximadas.Trechos longos dos mesmos dígitos, mesmo aqueles gerados por processos aleatórios "verdadeiramente", diminuiriam a "aleatoriedade local" de uma amostra (pode ser apenas localmente aleatória para sequências de 10.000 dígitos; sequências inferiores a 1.000 podem não parecer aleatórias por exemplo).
Uma sequência exibindo um padrão não é, assim, provada não ser estatisticamente aleatória. De acordo com os princípios da teoria de Ramsey, objetos suficientemente grandes devem necessariamente conter uma dada subestrutura ("o distúrbio completo é impossível").
Não entendo bem o significado das duas frases em negrito.
A primeira frase significa que algo torna uma sequência local aleatória em um comprimento maior, e não local aleatória em um comprimento menor?
Como funciona o exemplo entre parênteses?
- A segunda frase significa que não se pode provar que uma sequência que exibe um padrão não é estatisticamente aleatória? Por quê?
obrigado
fonte
Respostas:
O conceito pode ser perfeitamente ilustrado por algum código executável. Começamos (in
R
) usando um bom gerador de números pseudo-aleatórios para criar uma sequência de 10.000 zeros e uns:Isso passa em alguns testes básicos de números aleatórios. Por exemplo, um teste t para comparar a média de tem um valor de p de 40,09 %, o que nos permite aceitar a hipótese de que a zeros e uns estão igualmente provável.1/2 40.09
A partir desses números, prosseguimos para extrair uma subsequência de valores sucessivos começando no 5081st valor:1000
Para parecer aleatório, eles também devem passar nos mesmos testes de números aleatórios. Por exemplo, vamos testar se a média deles é 1/2:
O p-valor baixo (menos do que 1%) sugere fortemente a média é significativamente maior do que . De fato, a soma cumulativa dessa subsequência tem uma forte tendência ascendente:1/2
Isso não é comportamento aleatório!
A comparação da sequência original (plotada como uma soma cumulativa) com essa subsequência revela o que está acontecendo:
Como essas análises simples mostraram, nenhum teste pode "provar" que uma sequência parece aleatória. Tudo o que podemos fazer é testar se as seqüências se desviam o suficiente dos comportamentos esperados das seqüências aleatórias para oferecer evidência de que elas não são aleatórias. É assim que as baterias dos testes de números aleatórios funcionam: eles procuram padrões altamente improváveis de surgir em seqüências numéricas aleatórias. De vez em quando, eles nos levam a concluir que uma sequência verdadeiramente aleatória de números não parece aleatória: nós a rejeitaremos e tentaremos outra coisa.
A longo prazo, porém - assim como estamos todos mortos - qualquer gerador de números verdadeiramente aleatórios gerará todas as sequências possíveis de 1000 dígitos e o fará infinitamente várias vezes. O que nos resgata de um dilema lógico é que teríamos que esperar muito tempo para que ocorra uma aberração tão aparente.
fonte
Este trecho usa os termos "aleatoriedade local" e "aleatoriedade global" para distinguir entre o que pode ocorrer com um número finito de amostras de uma variável aleatória e a distribuição ou expectativa de probabilidade de uma variável aleatória.
Nada de novo aqui.
Assim, eu não queimaria muitas células cerebrais pensando nesse trecho. Não é matematicamente tão preciso e é realmente enganador sobre a natureza da aleatoriedade.
Edite com base no comentário: @kjetilbhalvorsen +1 no seu comentário para obter o conhecimento histórico. No entanto, ainda acho que o valor desses termos é limitado e enganoso. As tabelas que você está descrevendo parecem implicar enganosamente que pequenas amostras que, por exemplo, têm uma média longe do valor real esperado ou talvez uma improvável, mas certamente possível longa sequência de 0s repetidos (no meu exemplo de Bernoulli), de alguma forma exibem menos aleatoriedade (dizendo que eles não exibem essa falsa "aleatoriedade local"). Não consigo pensar em nada mais enganoso para o estatístico iniciante!
fonte
Eu acho que os autores do post da Wikipedia são uma aleatoriedade errônea. Sim, pode haver trechos que parecem não ser aleatórios, mas se o processo que criou a sequência for realmente aleatório, também deve ser a saída. Se certas seqüências parecem não-aleatórias, é uma percepção errônea do leitor (isto é, os seres humanos são projetados para encontrar padrões). Nossa capacidade de ver o Ursa Maior, Orion, etc. no céu noturno não é evidência de que os padrões das estrelas sejam não aleatórios. Concordo que a aleatoriedade geralmente parece não-aleatória. Se um processo gera padrões verdadeiramente não aleatórios para sequências curtas, não é um processo aleatório.
Não acho que o processo mude em diferentes tamanhos de amostra. Você aumenta o tamanho da amostra, aumenta a probabilidade de vermos uma sequência aleatória que parece não ser aleatória. Se houver 10% de chance de vermos um padrão em 20 observações aleatórias, aumentar o número total de observações para 10000 aumentaria a probabilidade de vermos não aleatoriedade em algum lugar.
fonte