Quais são as diferenças práticas entre os procedimentos de taxa de descoberta falsa de Benjamini e Hochberg (1995) e Benjamini e Yekutieli (2001)?

34

Meu programa de estatística implementa os procedimentos de Benjamini & Hochberg (1995) e Benjamini & Yekutieli (2001) taxa de descoberta falsa (FDR). Fiz o possível para ler o artigo posterior, mas ele é matematicamente denso e não estou razoavelmente certo de que entendo a diferença entre os procedimentos. Eu posso ver pelo código subjacente no meu programa de estatísticas que eles são realmente diferentes e que este último inclui uma quantidade q que eu já vi mencionada em relação ao FDR, mas também não tenho uma compreensão.

Existe alguma razão para preferir o procedimento de Benjamini e Hochberg (1995) versus o procedimento de Benjamini e Yekutieli (2001)? Eles têm suposições diferentes? Quais são as diferenças práticas entre essas abordagens?

Benjamini, Y., e Hochberg, Y. (1995). Controlando a taxa de falsas descobertas: uma abordagem prática e poderosa para vários testes. Jornal da Sociedade Estatística Real Série B, 57, 289–300.

Benjamini, Y. e Yekutieli, D. (2001). O controle da taxa de descoberta falsa em vários testes sob dependência. Annals of Statistics 29, 1165-1188.

O artigo de 1999 foi mencionado nos comentários abaixo: Yekutieli, D., & Benjamini, Y. (1999). Taxa de descoberta falsa baseada em reamostragem que controla vários procedimentos de teste para estatísticas de teste correlacionadas. Jornal de Planejamento Estatístico e Inferência, 82 (1), 171-196.

russellpierce
fonte
Eu pensei que o artigo de 2001 estabelece propriedades de FDR (1995) sob dependência. Yekutieli e Benjamini (Journal of Statistical Planning and Inference, 1999) estabelecem um procedimento diferente de FDR. Alguma chance de você procurar?
julieth 6/07/07
@julieth: Esse foi o meu sentido do artigo de 2001 ao ler apenas o resumo, mas as fórmulas do artigo (por exemplo, 27-30) parecem envolver uma quantidade chamada q. Por outro lado, este artigo de 1999 você cita. Meu senso, porém, é que o artigo de 1999 implementa uma abordagem de re-amostragem que é claramente (olhando o código) não é o que meu programa de estatísticas está fazendo (R; p.adjust) ... mas posso estar errado.
russellpierce
11
No final do artigo de 2001, o artigo de 1999 é citado e eles dizem "Finalmente, lembre-se do procedimento baseado em reamostragem de Yekutieli e Benjamini (1999), que tenta lidar com o problema acima e, ao mesmo tempo, utiliza as informações sobre a dependência. derivada da amostra. O procedimento baseado em reamostragem é mais poderoso, às custas de maior complexidade e apenas controle FDR aproximado ". ... então eu acho que o documento de 2001 forneceu uma solução computacional de formulário fechado e é isso que meu programa de estatísticas está implementando.
russellpierce
11
Ok, então você está usando o p.adjust. O artigo 99 é completamente diferente, como você observou. Eu sempre vi a opção BY em p.adjust e não prestei atenção. Esse artigo de 2001 é geralmente citado em relação à prova de FDR e 'dependência de regressão positiva'. Eu nunca vi isso citando um estimador diferente, mas talvez ele esteja lá. Parece que preciso relê-lo.
julieth 6/07/07

Respostas:

21

Benjamini e Hochberg (1995) introduziram a taxa de falsas descobertas. Benjamini e Yekutieli (2001) provaram que o estimador é válido sob algumas formas de dependência. A dependência pode surgir da seguinte maneira. Considere a variável contínua usada em um teste t e outra variável correlacionada a ele; por exemplo, testando se o IMC difere em dois grupos e se a circunferência da cintura difere nesses dois grupos. Como essas variáveis ​​estão correlacionadas, os valores p resultantes também serão correlacionados. Yekutieli e Benjamini (1999) desenvolveram outro procedimento de controle de FDR, que pode ser usado sob dependência geral, reamostrando a distribuição nula. Como a comparação é com relação à distribuição de permutação nula, à medida que o número total de verdadeiros positivos aumenta, o método se torna mais conservador. Acontece que BH 1995 também é conservadora à medida que o número de verdadeiros positivos aumenta. Para melhorar isso, Benjamini e Hochberg (2000) introduziram o procedimento de FDR adaptativo. Isso exigia a estimativa de um parâmetro, a proporção nula, que também é usada no estimador pFDR da Storey. Storey faz comparações e argumenta que seu método é mais poderoso e enfatiza a natureza conservadora do procedimento de 1995. Storey também tem resultados e simulações sob dependência.

Todos os testes acima são válidos sob independência. A questão é com que tipo de afastamento da independência essas estimativas podem lidar.

Meu pensamento atual é que, se você não espera muitos verdadeiros positivos, o procedimento BY (1999) é bom porque incorpora recursos de distribuição e dependência. No entanto, não conheço uma implementação. O método de Storey foi projetado para muitos verdadeiros positivos com alguma dependência. BH 1995 oferece uma alternativa à taxa de erro familiar e ainda é conservadora.

Benjamini, Y e Y Hochberg. Sobre o controle adaptativo da taxa de descoberta falsa em testes múltiplos com estatísticas independentes. Jornal de Estatísticas Educacionais e Comportamentais, 2000.

julieth
fonte
Muito obrigado! Você poderia revisar sua pergunta para esclarecer os seguintes pontos / questões: "reamostrar a distribuição nula" é o artigo de 1999? Você poderia citar o artigo de 2000? Você parecia familiarizado com o p.adjust, ele está realmente implementando o procedimento BY? Deve-se usar BH quando os testes de hipótese não são dependentes? O que faz com que os testes de hipóteses sejam considerados dependentes? - Informe-me se alguma dessas perguntas estiver além do escopo atual e exigir que uma nova pergunta seja feita.
russellpierce
p.adjust tem opções para ambos (BH e BY). No entanto, eu pensei que estes eram os mesmos, então eu perdi alguma coisa.
julieth 6/07/07
E o código subjacente também é diferente (verifiquei) para que eles produzam números diferentes.
russellpierce
Então, qual procedimento você acha que o p.adjust está executando com o argumento BY? Não acho que seja o procedimento de 1999. O código subjacente é pmin (1, cummin (q * n / i * p [o])) [ro]. BH é pmin (1, cummin (n / i * p [o])) [ro]. Portanto, eles diferem apenas em q, que é a soma (1 / (1: n)), em que n = o número de valores. O e ro apenas servem para colocar os valores de p em ordem decrescente numérica para a função e, em seguida, cuspir-los de volta na mesma ordem que o usuário inputed-los.
russellpierce
11
Portanto, como não há novas respostas, aceitarei essa resposta e resumirei meu entendimento. p.adjust pode estar usando errado para BY. O que é executado não é reamostragem. BH, 2000 introduziu o procedimento de FDR adaptável, e isso envolve a estimativa da proporção nula, que pode ser o q que aparece no código BY. Nesse ínterim, parece sensato citar p.adjust diretamente, pois isso reflete o procedimento real usado quando você usa a opção "BY" e apenas estar ciente de que "BY" pode realmente estar implementando Benjamini & Hochberg, 2000.
russellpierce 28/08
5

p.adjust não está usando errado para BY. A referência é ao Teorema 1.3 (prova na Seção 5 na p.1182) no artigo:

Benjamini, Y. e Yekutieli, D. (2001). O controle da taxa de descoberta falsa em vários testes sob dependência. Annals of Statistics 29, 1165-1188.

Como este documento discute vários ajustes diferentes, a referência na página de ajuda (no momento da redação) para p.adjust () é um tanto obscura. É garantido que o método controla o FDR, na taxa estabelecida, sob a estrutura de dependência mais geral. Há comentários informativos nos slides de Christopher Genovese em: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf Observe o comentário no slide 37, referente ao método do Teorema 1.3 no documento BY 2001 [method = 'BY' com p.adjust ()] que: "Infelizmente, isso geralmente é muito conservador, às vezes até mais do que Bonferroni."

Exemplo numérico: method='BY' vsmethod='BH'

O método a seguir compara = 'BY' com o método = 'BH', usando a função p.adjust () de R, para os valores de p da coluna 2 da Tabela 2 no artigo de Benjamini e Hochberg (2000):

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

i=1m(1/i)m

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

setNames (mult, paste (c ('m =', rep ('', 5)), c (11, 30, 34, 226, 1674, 12365))) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

m

John Maindonald
fonte