Método Z-score de Stouffer: e se somarmos

22

Estou executando N testes estatísticos independentes com a mesma hipótese nula e gostaria de combinar os resultados em um valor p . Parece que existem dois métodos "aceitos": o método de Fisher e o método de Stouffer .

Minha pergunta é sobre o método de Stouffer. Para cada teste separado, obtenho um z-score zi . Sob uma hipótese nula, cada um deles é distribuída com uma distribuição normal padrão, de modo que a soma Σzi segue uma distribuição normal com variância N . Portanto, o método de Stouffer sugere calcular Σzi/N , que deve ser normalmente distribuído com variação de unidade e, em seguida, use-o como um escore z conjunto.

Isso é razoável, mas aqui está outra abordagem que eu criei e que também me parece razoável. Como cada um dos zi trata de uma distribuição normal padrão, a soma dos quadrados S=Σzi2 deve vir de uma distribuição do Qui-quadrado com N graus de liberdade. Assim, pode-se calcular S e convertê-lo em um valor p usando a função de distribuição qui-quadrado cumulativa com N graus de liberdade ( p=1XN(S) , onde XN é o CDF).

No entanto, em nenhum lugar posso encontrar essa abordagem sequer mencionada. É alguma vez usado? Isso tem um nome? Quais seriam as vantagens / desvantagens em comparação com o método de Stouffer? Ou existe uma falha no meu raciocínio?

ameba diz Restabelecer Monica
fonte
Uma falha saliente que salta para fora é o método de Stouffer pode detectar mudanças sistemáticas na , que é o que se costuma esperar que aconteça quando uma alternativa é sempre verdadeira, ao passo que o método qui-quadrado parece ter menos energia para fazê-lo. Uma simulação rápida ( N = 100 , 10 4 iterações) mostra que esse é o caso; o método qui-quadrado é seriamente menos poderoso para detectar uma alternativa unilateral. ziN=100104
whuber
2
Obrigado whuber! Você poderia descrever sua simulação com mais detalhes? Estou curioso. Por outro lado, se têm sinais diferentes, mas grandes valores absolutos, então o método de Stouffer pode acabar com total z 0 , enquanto que o meu método iria relatar um muito significativo p . Eu acho que, em alguns casos, pode fazer muito mais sentido (e eu suspeito que, no meu caso, faz, mas não tenho certeza). zEuz0 0p
Ameba diz Reinstate Monica
1
Você está certo, razão pela qual eu não postei meu comentário como resposta. Mas que tipos de situações existem em que as alternativas variam tão radicalmente do nulo em ambas as direções, exceto apenas pelo acaso?
whuber
A situação que eu tinha em mente é semelhante à do teste qui-quadrado de Pearson, onde se interessa se uma distribuição empírica difere da nula; então os desvios em qualquer direção importam. Mas, depois de pensar duas vezes, acho que sua intuição está correta e, no meu caso, desvios suspeitos estão todos em uma direção. Se você postar seu comentário como resposta e fornecer alguns detalhes sobre sua simulação rápida (estou muito curioso por que o método qui-quadrado se mostra menos poderoso!), Terei prazer em aceitá-lo.
Ameba diz Reinstate Monica
A soma de n escores Z tem uma distribuição com uma variação de n? Por que a variação não é o quadrado do erro padrão da média? A soma de como está implícita no título, tem uma variação de N. Talvez esteja faltando algo óbvio? Z2
russellpierce

Respostas:

17

Uma falha que salta para fora é o método de Stouffer pode detectar mudanças sistemáticas na , que é o que se costuma esperar que aconteça quando uma alternativa é sempre verdadeira, ao passo que o método qui-quadrado parece ter menos energia para fazê-lo. Uma simulação rápida mostra que esse é o caso; o método qui-quadrado é menos poderoso para detectar uma alternativa unilateral. Aqui estão histogramas dos valores de p pelos dois métodos (vermelho = Stouffer, azul = qui-quadrado) para 10 5 iterações independentes com N = 10 e vários efeitos padronizados unilaterais μ variando de nenhum ( μ = 0 ) a 0,6 DP ( μ =zi105N=10μμ=00.6 ).μ=0.6

Figura

O melhor procedimento terá mais área próxima de zero. Para todos os valores positivos de mostrados, esse procedimento é o procedimento Stouffer.μ


Código R

Isso inclui o método de Fisher (comentado) para comparação.

n <- 10
n.iter <- 10^5
z <- matrix(rnorm(n*n.iter), ncol=n)

sim <- function(mu) {
  stouffer.sim <- apply(z + mu, 1, 
                    function(y) {q <- pnorm(sum(y)/sqrt(length(y))); 2*min(q, 1-q)})
  chisq.sim <- apply(z + mu, 1, 
                    function(y) 1 - pchisq(sum(y^2), length(y)))
  #fisher.sim <- apply(z + mu, 1,
  #                  function(y) {q <- pnorm(y); 
  #                     1 - pchisq(-2 * sum(log(2*pmin(q, 1-q))), 2*length(y))})
  return(list(stouffer=stouffer.sim, chisq=chisq.sim, fisher=fisher.sim))
}

par(mfrow=c(2, 3))
breaks=seq(0, 1, .05)
tmp <- sapply(c(0, .1, .2, .3, .4, .6), 
              function(mu) {
                x <- sim(mu); 
                hist(x[[1]], breaks=breaks, xlab="p", col="#ff606060",
                     main=paste("Mu =", mu)); 
                hist(x[[2]], breaks=breaks, xlab="p", col="#6060ff60", add=TRUE)
                #hist(x[[3]], breaks=breaks, xlab="p", col="#60ff6060", add=TRUE)
                })
whuber
fonte
Mais uma vez obrigado, isso é muito bom. E o que acontece se você descomentar o método de Fisher? Eu suspeito que você já tentou. Stouffer vence consistentemente? (Desculpe por não testá-lo eu mesmo, mas eu não tenho nenhuma experiência com R e não tê-lo na mão.)
ameba diz Reintegrar Monica
μNN
1
Você pode modificar facilmente a Rsimulação para testar isso. Seria uma boa maneira de se apresentar a essa plataforma de computação estatística. :-)
whuber
2
zizEu
Ótima discussão e controle de qualidade! Uma pergunta rápida: E se um formas este problema como um outlier / detecção de anomalias, calculando a distância de Mahalanobis e follow algo como este ?
NULL
10

Uma maneira geral de obter informações sobre as estatísticas de teste é derivar as suposições subjacentes (geralmente implícitas) que levariam a estatística de teste a ser mais poderosa. Para esse caso em particular, um estudante e eu fizemos isso recentemente: http://arxiv.org/abs/1111.1210v2 (uma versão revisada deve aparecer em Annals of Applied Statistics).

Para resumir muito brevemente (e consistente com os resultados da simulação em outra resposta) o método de Stouffer será mais poderoso quando os efeitos subjacentes "verdadeiros" forem todos iguais; a soma de Z ^ 2 será mais poderosa quando os efeitos subjacentes são normalmente distribuídos em torno de 0. Essa é uma pequena simplificação que omite detalhes: consulte a seção 2.5 na pré-impressão do arxiv vinculada acima para obter mais detalhes.

mstephens
fonte
2
(+1) De alguma forma, pensei que o escrevi há muito tempo, mas parece que não o fiz: muito obrigado por se registrar aqui especificamente para responder à minha pergunta! Eu agradeço. A seção 2.5 do seu artigo é realmente muito relevante.
Ameba diz Reinstate Monica
3

Ligeiramente o / t: um dos problemas de ambas as abordagens é a perda de potência devido aos graus de liberdade (N para Stouffer's; 2N para Fisher). Foram desenvolvidas melhores abordagens meta-analíticas para isso, que você pode considerar (meta-análise ponderada por variância inversa, por exemplo).

Se você está procurando evidências de alguns testes alternativos em um grupo, consulte a estatística de maior crítica de Donoho e Jin: https://projecteuclid.org/euclid.aos/1085408492

cotsapas
fonte
1

Para responder à pergunta e a outros leitores: ele já foi usado ?, existe um artigo exaustivo de Cousins ​​(2008) sobre o arXiv, que lista e revisa algumas abordagens alternativas. O proposto não parece aparecer.

victor_v
fonte