Estou interessado em entender a diferença entre "probabilidade" de um evento aleatório com uma probabilidade específica que realmente ocorra com a probabilidade exata de que é provável. ou seja, se um evento tem uma probabilidade de 1 em 10000, qual é a probabilidade de que em 10000 tentativas ocorra exatamente 1 vez, não 2 vezes, não 0 vezes, não 3 vezes etc. e como se expressa (e explica) o desvio?
Se um evento tem uma probabilidade de 1: 10.000, portanto, em 100.000 tentativas, provavelmente ocorrerá 10 vezes; em 1.000.000 de tentativas, provavelmente ocorrerá 100 vezes, mas também não ocorrerá em um determinado conjunto de 1.000.000 de tentativas inúmeras vezes, por exemplo: 98 vezes, 99 vezes, 101 vezes, 96 vezes, 102 vezes etc.
Estatisticamente falando, quantas tentativas devem ser calculadas e contabilizadas para se aproximar de uma certeza estatística de que um resultado específico é realmente 1: 10000, e não 1: 9999 ou 1: 10001 ou 1: 10000,5, etc.?
fonte
Respostas:
Edit: Como Mark L Stone ressalta, com razão, tomei sua pergunta como implicando que os julgamentos são independentes sem estabelecer que esse é o caso. Essa é uma suposição crítica (e pode não ser razoável em muitas situações). No entanto, continuarei respondendo com base nisso, porque continuo pensando que essa foi sua intenção.
O mesmo vale para tentativas e uma probabilidade de , para qualquer suficientemente grande .1 / n nn 1/n n
As probabilidades (para qualquer grande ) são muito parecidas com esta (mostrando o caso para = 10000):nn n
Não exatamente: 99 e 100 têm a mesma chance, mas todo o resto tem uma chance menor:
(a probabilidade continua a diminuir à medida que você avança).
Especificamente, você está lidando com uma distribuição binomial com e .p = 1 / 10000n=1000000 p=1/10000
Como é grande é pequeno, é bem aproximado por uma distribuição de Poisson com média .p λ = n p = 100n p λ=np=100
Você não pode ter certeza de que na verdade é 1/10000, pois você pode estar arbitrariamente próximo, mas diferente.
Em tentativas, o número esperado de sucessos é com sd .n p √n np np(1−p)−−−−−−−−√≈np−−√
Se , e , em seguida, o número esperado de sucessos é com SD ; se o número esperado de sucessos seria ... a cerca de um desvio padrão - não o suficiente para diferenciá-los "de maneira confiável". Mas com , você está a cerca de sd de distância e pode diferenciá-los mais facilmente; provavelmente é tão baixo quanto a maioria das pessoas gostaria de ir. Em você pode diferenciá-los bastante (as chances de 1/10000 parecerem 1/9999 ou 1/10001 ou qualquer coisa mais distante por acaso são bem pequenas nesse ponto).p=1/10000 n=1012 108 104 p=1/9999 100,010,000 n=4×1012 2 n=1013
Digamos que você ficou satisfeito com tentativas de distinguir de . Se você deseja descartar 1/9999,5 com a mesma confiança que tinha para descartar 1/9999, precisará de 4 vezes mais tentativas.1013 p=1/10000 1/9999
Você pode ver que fixar proporções a muitos valores de precisão (quando é muito pequeno) exige muitas tentativas; você precisa de um tamanho de amostra várias vezes mais que para obter uma estimativa precisa o suficiente para descartar quando é realmente .p (1/p)3 p=1/(k±1) 1/k
Sim, pode ser solicitado em 10000 tentativas ou 1000 ou 100.
Vamos simplificar as coisas e fazer 10000 tentativas e 98 sucessos. Pode-se, é claro, tomar como estimativa pontual a probabilidade de sucesso 98/10000 = 0,0098, mas essa não será realmente a proporção subjacente, apenas uma estimativa. Pode muito bem ser 0,944 ... ou 0,997 ... ou qualquer número de outros valores.
Então, uma coisa que as pessoas fazem é construir um intervalo de valores que seriam (em algum sentido) razoavelmente consistentes com a proporção observada. Existem duas filosofias principais da estatística (estatística bayesiana e freqüentista) que em grandes amostras geralmente tendem a gerar intervalos semelhantes, mas que têm interpretações bastante diferentes.
O mais comum seria um intervalo de confiança (freqüentista) ; um intervalo para o parâmetro ( ) que (em muitas repetições do mesmo experimento) seria esperado incluir o parâmetro em uma determinada proporção do tempo.p
Um intervalo bayesiano típico começaria com uma distribuição anterior no parâmetro que representa sua incerteza sobre seu valor e usaria os dados para atualizar esse conhecimento para uma distribuição posterior e obter um intervalo confiável .
Intervalos de confiança são amplamente utilizados (embora um intervalo confiável possa se aproximar de suas expectativas sobre o que um intervalo deve fazer). No caso do intervalo de confiança da proporção binomial , como aqui, há uma variedade de abordagens, embora em grandes amostras todas elas ofereçam praticamente o mesmo intervalo.
Corrigir; você esperaria (com dados justos) obter entre 999,94 milhões e 1000,06 milhões de sucesso quase (mas não exatamente) toda vez que você o experimentasse.
Ele quase sempre continuará consistente com ele (e com uma variedade de outros valores próximos). O que acontece não é que você saiba que é 1/10000, mas que o intervalo dos valores de probabilidade consistentes com seus resultados ficará mais estreito à medida que o tamanho da amostra aumentar.
fonte
Explicação:
Suponha que eu jogue um dado 6 vezes. A probabilidade de obter
1
pelo menos uma vez dessas 6 tentativas é:Da mesma forma, suponha que um evento tenha uma probabilidade de
1/10000
. A probabilidade desse evento acontecer pelo menos uma vez fora das10000
tentativas é:Podemos extrapolar isso para qualquer um
n
e obter:Ao traçar essa equação no Grapher , obtemos algo assim:
Conclusão: embora faz todo o sentido, eu estava realmente muito surpreso com o fato de que a probabilidade de um evento com acontecendo, pelo menos uma vez fora de tentativas é quase independente de , para como pouco como já. nnn3p=1n n n n 3
fonte
Vamos estabelecer um problema mais simples nos dados. Vamos calcular a
probabilidade deprobabilidade de que, em 6 jogadas de dados, a pontuação seja 1 exatamente uma vez.Quantas maneiras isso pode acontecer [e suas respectivas probabilidades]:
então a probabilidade total de 1 ser pontuada apenas uma vez em 6 jogadas é (3125/46656) * 6 = 3125/7776
Você pode estender o mesmo desenvolvimento para eventos com probabilidade 1 / n. A probabilidade de ocorrência de eventos apenas uma vez em n ensaios seria
Isso pode parecer um pouco familiar quando eu o reorganizo:
Outra parte da sua pergunta: reduzir o desvio à medida que o número de amostras aumenta, já está bem explicada em outra resposta.
fonte