Vamos nos ater a uma situação ideal com amostragem aleatória, populações gaussianas, variações iguais, sem hackers P etc.
Etapa 1. Você realiza uma experiência, digamos, comparando duas médias de amostra e calcula um intervalo de confiança de 95% para a diferença entre as duas médias da população.
Etapa 2. Você executa muito mais experimentos (milhares). A diferença entre médias varia de experimento para experimento devido a amostragem aleatória.
Pergunta: Que fração da diferença entre médias da coleta de experimentos na etapa 2 estará dentro do intervalo de confiança da etapa 1?
Isso não pode ser respondido. Tudo depende do que aconteceu na etapa 1. Se o experimento da etapa 1 foi muito atípico, a resposta para a pergunta pode ser muito baixa.
Então, imagine que os dois passos sejam repetidos várias vezes (com o passo 2 repetido muito mais vezes). Agora, acho que seria possível chegar a uma expectativa de que fração de experimentos repetidos, em média, tenha um tamanho de efeito dentro do intervalo de confiança de 95% do primeiro experimento.
Parece que a resposta a essas perguntas precisa ser entendida para avaliar a reprodutibilidade dos estudos, uma área muito quente atualmente.
fonte
Respostas:
Análise
Por se tratar de uma questão conceitual, por simplicidade, vamos considerar a situação em que um intervalo de confiança [ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / √1 - α é construído para uma médiaμusando uma amostra aleatóriax(1)do tamanhone uma segunda amostra aleatóriax(2)é coletada do tamanhom, todas da mesmadistribuiçãoNormal(μ,σ2). (Se desejar, você pode substituirZspor valores dadistribuiçãot deStudentden-1graus de liberdade; a análise a seguir não será alterada.)
A chance de a média da segunda amostra estar dentro do IC determinado pela primeira é
Como a média da primeira amostra é independente do desvio padrão da primeira amostra s ( 1 ) (isso requer normalidade) e a segunda amostra é independente da primeira, a diferença na amostra significa U = ˉ x ( 2 ) - ˉ x ( 1 ) é independente do s ( 1 ) . Além disso, para este intervalo simétrico Z α / 2 = - Z 1 - α / 2x¯(1) s(1) U=x¯(2)−x¯(1) s(1) Zα/2=−Z1−α/2 . Portanto, ao escrever para a variável aleatória s ( 1 ) e ao quadrado das duas desigualdades, a probabilidade em questão é a mesma queS s(1)
As leis da expectativa implicam que tem uma média de 0 e uma variação deU 0
Como é uma combinação linear de variáveis normais, também possui uma distribuição normal. Portanto U 2 é σ 2 ( 1U U2 σ2(1n+1m) times a χ2(1) variable. We already knew that S2 is σ2/n times a χ2(n−1) variable. Consequently, U2/S2 is 1/n+1/m times a variable with an F(1,n−1) distribution. The required probability is given by the F distribution as
Discussion
An interesting case is when the second sample is the same size as the first, so thatn/m=1 and only n and α determine the probability. Here are the values of (1) plotted against α for n=2,5,20,50 .
The graphs rise to a limiting value at eachα as n increases. The traditional test size α=0.05 is marked by a vertical gray line. For largish values of n=m , the limiting chance for α=0.05 is around 85% .
By understanding this limit, we will peer past the details of small sample sizes and better understand the crux of the matter. Asn=m grows large, the F distribution approaches a χ2(1) distribution. In terms of the standard Normal distribution Φ , the probability (1) then approximates
For instance, withα=0.05 , Zα/2/2–√≈−1.96/1.41≈−1.386 and Φ(−1.386)≈0.083 . Consequently the limiting value attained by the curves at α=0.05 as n increases will be 1−2(0.083)=1−0.166=0.834 . You can see it has almost been reached for n=50 (where the chance is 0.8383… .)
For smallα , the relationship between α and the complementary probability--the risk that the CI does not cover the second mean--is almost perfectly a power law. Another way to express this is that the log complementary probability is almost a linear function of logα . The limiting relationship is approximately
In other words, for largen=m and α anywhere near the traditional value of 0.05 , (1) will be close to
(This reminds me very much of the analysis of overlapping confidence intervals I posted at /stats//a/18259/919. Indeed, the magic power there,1.91 , is very nearly the reciprocal of the magic power here, 0.557 . At this point you should be able to re-interpret that analysis in terms of reproducibility of experiments.)
Experimental results
These results are confirmed with a straightforwward simulation. The following(1) , and a Z-score to assess how much they differ. The Z-scores are typically less than 2 in size, regardless of n,m,μ,σ,α (or even whether a Z or t CI is computed), indicating the correctness of formula (1) .
R
code returns the frequency of coverage, the chance as computed withfonte
qt
line in the code.[Editado para corrigir o bug apontado pelo WHuber.]
Alterei o código R do @ Whuber para usar a distribuição t e plotar a cobertura como uma função do tamanho da amostra. Os resultados estão abaixo. No tamanho da amostra alto, os resultados correspondem ao WHuber's, é claro.
And here is the adapted R code, run twice with alpha set to either 0.01 or 0.05.
And here is the GraphPad Prism file that made the graph.
fonte
T
fora do loop! Se você deseja ver as curvas corretas, plote-as diretamente usando o resultado teórico em minha resposta, conforme indicado no final do meuR
código (em vez de confiar nos resultados simulados):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")