Qual é o impacto da duplicação de um tamanho de amostra em um valor-p

7

Supondo que seja uma relação subjacente entre duas variáveis ​​em uma regressão OLS [teste de hipótese nula], qual é o impacto no valor p de duplicar o tamanho da amostra? (supondo que a amostra inicial seja representativa da população e a amostra subsequente também seja representativa).

Obviamente, estou ciente de que, enquanto houver um relacionamento subjacente, o aumento do tamanho da amostra deve reduzir o valor de p, mas estou interessado em entender melhor a natureza do relacionamento entre p e n.

Kyrenia
fonte
11
Suponho que você esteja pensando no valor de associado ao que é calculado para cada coeficiente de regressão. Não tenho a resposta, mas se você quiser explorar esse problema, considere o tamanho da amostra que atua nesse valor de duas maneiras. Em primeiro lugar, o aumento de N significa uma diminuição do erro padrão e, consequentemente, um maior . Em segundo lugar, para um dadoptptt, aumentar N aumentará df (ocasionalmente denominado v no t-distribuição), que em prazo aumentará a p valor associado a esse t.
Ian_Fin
2
@Ian_Fin, Aumentando os graus de liberdade com a diminuição do valor-p, tudo o mais é igual.
not_bonferroni
@not_bonferroni Good spot! Eu devo ter pensado em termos de coisas cada vez mais significativas e digitado a palavra errada.
Ian_Fin
11
Aumentar o tamanho da amostra tenderá a aumentar o valor-p quando a hipótese nula for verdadeira e diminuirá quando o nulo for falso. Essas são apenas tendências, no entanto, porque os valores de p são aleatórios. Em particular, há duas maneiras drasticamente diferentes de ler esta pergunta: uma diz respeito comportamentos de p-valores a priori e as outras preocupações prevendo alterações em valores de p depois de realizar uma regressão em um conjunto de dados em particular : em outras palavras, condicional em um dado valor p. Qual interpretação é a pretendida?
whuber
@ whuber: por que você espera que os valores p aumentem quando o nulo é verdadeiro? Digamos, quando todas as suposições clássicas forem atendidas, os valores p construídos a partir da distribuição t me levariam a esperar valores p uniformes padrão para qualquern?
Christoph Hanck

Respostas:

7

Para o teste T, temos regras como "Dobrar o tamanho da amostra aumenta a estatística do teste em 2 ". Isso pode fazer você pensar que existe uma relação simples entre tamanho da amostra e valor de p.

De fato, a relação entre o tamanho da amostra e o valor p depende da relação entre o tamanho da amostra e a estatística do teste, e a relação entre a estatística do teste e o valor p. Esses relacionamentos serão diferentes para cada teste.

Para o caso mais simples, o teste Z unilateral, podemos ver qual é essa relação. Suponha uma variável aleatóriaX tem média μ e variação σ2. Suponha que estamos testando se a média deX é significativamente diferente de ν. A estatística de testeZ é (x¯-ν)nσ.

O valor p é igual a um menos o CDF do Z estatística (isso pressupõe que a diferença entre médias é positiva, um argumento semelhante funciona se a diferença for negativa).

Para a distribuição normal, o CDF é Φ(t)=0,5+0,5erf(x-μtσt2). Onde erf (x) é a função de erro.

Sob a hipótese nula de igual significa o Z estatística tem uma média 0 0 e variação 1 1. A distribuição real deZ tem uma média de (x¯-ν)nσ e variação 1 1.

O tamanho do efeito da diferença entre as médias é (x¯-ν)σ. Chame o tamanho do efeitob, então o valor esperado de Z é bn.

Para Z o CDF é Φ(z)=0,5+0,5erf(z2). Onde erf (x) é a função de erro.

Claro que o Z estatística é uma variável aleatória, aqui vamos ver a relação entre o tamanho da amostra e o valor p para o valor esperado de Z.

Daqui resulta que o CDF do Z estatística é Φ(z)=0,5+0,5erf(bn2)

Essa é a relação entre o valor de p e o tamanho da amostra

p=0,5-0,5erf(bn2)

O relacionamento varia de acordo com o valor de n. Para muito grandenpodemos usar uma expansão em série para ver o comportamento limitador. De acordo com o wolfram alpha, isso é:

limnp=e-0,5b2n(1 1ebn+O(1 1(bn)2))

Essa é uma decadência bastante rápida em direção a 0. Existe uma grande dependência do tamanho do efeito, é claro que se a diferença entre médias for maior, o valor de p diminuirá mais rapidamente à medida que a amostragem melhorar.

Novamente, lembre-se de que isso é apenas para o teste Z e T, não se aplica a outros testes.

Hugh
fonte
Os princípios básicos nos informam que (1) os valores p são quantidades aleatórias ; (2) eles dependem do tamanho da amostra; mas (3) eles também dependem do estado real da natureza - isto é, não apenas se a hipótese nula é verdadeira ou falsa, mas também em que distribuição específica governa os resultados. Como sua resposta parece não reconhecer (1) ou (3), é difícil determinar quão informativas ou confiáveis ​​são essas informações.
whuber
@whuber Eu admito que minha notação é ruim, então é um pouco claro. Menciono (3), o estado da natureza é o tamanho do efeito da diferença entre as médias da população. Você está certo sobre (1), eu não tratei o valor p como uma variável aleatória, estava procurando por uma regra prática como "Dobrar o tamanho da amostra leva à estatística T aumentar em2.." Eu estava olhando para o efeito do tamanho da amostra sobre o p-valor esperado Boa coisa que você apontou para que eu possa esclarecer isso para futuros leitores.
Hugh
@Hugh, a pergunta do OP, dizia respeito a testes de parâmetros dos modelos OLS, que estão diretamente conectados aos testes Z ou T ao considerar os testes baseados em Wald. No entanto, você pode dizer se os erros padrão dos coeficientes de regressão são diretamente proporcionais a um fator de1 1/ncomo em outros testes Z ou T?
AdamO 12/09
5

Vamos primeiro investigar o efeito no valor t . Podemos então inferir imediatamente o efeito no valor-p.

Talvez isso seja melhor ilustrado por um exemplo de simulação bem escolhido, que ilustra os recursos mais salientes. Desde que estamos olhandoH0 0 sendo falso (e estamos considerando essencialmente as propriedades relacionadas à energia), faz sentido focar em um teste de uma cauda (na direção "correta"), pois olhar para a cauda errada não verá muita ação e não dirá nós muito interesse.

Portanto, aqui temos uma situação (em n = 100) em que o efeito é grande o suficiente para que a estatística às vezes seja significativa. Em seguida, adicionamos à primeira amostra um segundo desenho da mesma distribuição contínua de valores x (aqui uniforme, mas não é crítico para o efeito observado) do mesmo tamanho que o primeiro, levando a uma duplicação do tamanho da amostra, mas inteiramente incluindo a primeira amostra.

Gráfico de valor t para declive com amostra inicial vs amostra maior

O que observamos não é que o valor p diminua, apenas que ele diminua (mais pontos estão acima da linha diagonal do que abaixo dela); podemos ver que a variação nos valores t reduz, então há menos na região de 0. Muitos valores p aumentam. Muitas amostras que eram insignificantes se tornaram significativas quando adicionamos mais dados, mas algumas que foram significativas se tornaram insignificantes.

[Aqui, examinamos a estatística t para o coeficiente de inclinação em uma regressão simples, embora qualitativamente os problemas sejam semelhantes de maneira mais ampla.]

Um gráfico de valores-p em vez de valores-t transmite essencialmente a mesma informação. De fato, se você colocar as marcas nos intervalos corretos nos eixos acima, poderá rotulá-las com valores-p ... mas a parte superior (e a direita) mostrarão valores-p baixos e a parte inferior (/ esquerda) será rotulado com valores-p maiores. [Na verdade, plotar os valores-p esmaga tudo no canto e fica menos claro o que está acontecendo.]

Glen_b -Reinstate Monica
fonte
2

Em geral, quando o respectivo nulo é falsa, esperar decaimento dos valores p como na figura abaixo, onde I relatório de p-valores médios a partir de pouco estudo de simulação para múltiplos de amostras de tamanho n=25variando bb*n=25da bb*n=29*25para um simples linear coeficiente de regressão igual para 0,1 e desvio padrão de erro deσvocê=0,5.

Como os valores de p são delimitados de baixo por zero, o decaimento deve finalmente se achatar.

O intervalo de confiança de 90% (área sombreada em azul) indica que, além disso, a variabilidade dos valores de p também diminui com o tamanho da amostra.

insira a descrição da imagem aqui

Evidentemente, quando σvocê é menor ou nquanto maior, os valores-p serão próximos de zero mais rapidamente ao aumentar bb, para que a aparência do gráfico seja mais plana.

Código:

reps <- 5000
B <- seq(1,30,by=2)
n <- 25

sigma.u <- .5
pvalues <- matrix(NA,reps,length(B))
for (bb in 1:length(B)){
     for (i in 1:reps){
          x <- rnorm(B[bb]*n)
          y <- .1*x + rnorm(B[bb]*n,sd=sigma.u)
          pvalues[i,bb] <- summary(lm(y~x))$coefficients[2,4]     
     }
}
plot(B,colMeans(pvalues),type="l", lwd=2, col="purple", ylim=c(0,.9))
ConfidenceInterval <- apply(pvalues, 2, quantile, probs = c(.1,.9))
x.ax <- c(B,rev(B))
y.ax <- c(ConfidenceInterval[1,],rev(ConfidenceInterval[2,]))
polygon(x.ax,y.ax, col=alpha("blue",alpha = .2), border=NA)
Christoph Hanck
fonte
Como um valor-p é uma quantidade aleatória, é importante explicar que o eixo vertical em seu gráfico exibe suas estimativas dos valores-p esperados em vez dos próprios valores-p. Em vista disso, mostrando a variação entre os valores de p para qualquer dadoBseria um complemento essencial para sua análise.
whuber
@whuber, foi o que tentei enfatizar escrevendo "expect", mas espero que seja um pouco mais explícito agora.
Christoph Hanck
3
+1, mas o "achatamento" provavelmente desapareceria se você plotasse em log(p)vez de psi mesmo.
Ameba
@amoeba: sim, executar o mesmo script para log-pvalues ​​parece produzir uma linha reta.
Christoph Hanck