Por que várias correções de hipóteses não são aplicadas a todos os experimentos desde o início dos tempos?

Sabemos que devemos aplicar correções do tipo Benjamini Hochberg para testes de múltiplas hipóteses a experimentos com base em um único conjunto de dados, a fim de controlar a taxa de falsas descobertas, caso contrário, todos os experimentos que dão um resultado positivo podem ser falsos.

Mas por que não aplicamos esse mesmo princípio a todos os experimentos desde o início dos tempos, independentemente da origem dos dados?

Afinal, mais da metade dos resultados científicos publicados que são considerados "significativos" são agora conhecidos como falsos e irreprodutíveis, e não há razão para que isso não possa ser tão facilmente como 100%. Como os cientistas tendem apenas a publicar resultados positivos, não temos idéia do número de resultados negativos; portanto, não temos idéia se o que publicamos são apenas falsos positivos - resultados positivos que surgiram por pura chance aleatória sob a hipótese nula. Enquanto isso, não há nada a dizer que a matemática por trás de várias correções de teste de hipóteses deve se aplicar apenas aos resultados do mesmo conjunto de dados, e não aos resultados de todos os dados experimentais adquiridos ao longo do tempo.

Parece que toda a ciência se tornou uma grande expedição de pesca baseada em hipóteses falsas ou fracas, então como podemos controlar isso?

Como podemos controlar a taxa de falsas descobertas, se tudo o que publicamos são resultados independentes obtidos sem aplicar nenhuma correção para testes de múltiplas hipóteses em todos os experimentos realizados até o momento?

É possível controlar a taxa de descoberta falsa sem aplicar alguma correção?

hypothesis-testing multiple-comparisons bonferroni false-discovery-rate Kelvin
fonte

Sua própria pergunta meta.stats.stackexchange.com/questions/3049/… se aplica. Isso inclui várias declarações controversas (em alguns casos altamente exageradas) com várias grandes questões. Eu acho que isso vai contra o consenso de conselhos já dados a você.

Nick Cox

Desculpe, não sei a que respostas você está se referindo: Não vejo referências aqui. Não estou votando para fechar, nem (naturalmente) tenho desejo ou poder de impedir que as pessoas respondam. Mas, por exemplo, "desde os primórdios dos tempos" é um pequeno exemplo de exagero sem sentido e há vários outros em sua postagem. Ser provocativo por si só não ajudará, na minha experiência deste site, a sua pergunta subjacente. Os leitores precisam retirar o estilo da substância.

Nick Cox

Obrigado pelo convite, mas a vida é curta. Vou deixar minha referência cruzada para o meta thread como meu ponto principal. Afirmei minha opinião sobre estilo e substância, que pode permanecer ou cair sobre seus méritos aqui.

Nick Cox

Se estou fazendo ciência, não me importo muito com as falsas descobertas que você fez. De fato, no que diz respeito a uma afirmação científica específica, posso não me importar muito com outras falsas descobertas que fiz. Se não estou fazendo ciência, posso nem me importar com outras falsas descobertas que fiz nessa análise específica - porque se eu escolher minha taxa de erro tipo I com base nos custos relativos dos dois tipos de erros, já escolheu o tradeoff entre os dois e não deve corrigir todas as comparações.

Glen_b -Reinstala Monica

Felizmente, outros apresentaram visões semelhantes às minhas com clareza e clareza. Como um comentário extra, desaconselho a ciência conflitante (o que for de algum valor duradouro) com sua literatura. Há muitas maneiras pelas quais a literatura desaponta: imprecisão, trivialidade, erros lógicos etc. No resumo, todo mundo fica desconcertado com o pensamento de todos os testes falsos positivos publicados, mas é preciso acreditar e agir com efeitos duradouros. (Se for um teste de drogas, isso pode ser um grande problema.) Portanto, há muitas coisas com que se preocupar, mas não acho que a ciência esteja condenada.

Nick Cox

Respostas:

Obviamente, isso seria um pesadelo absoluto na prática, mas suponha que isso possa ser feito: designamos um sultão estatístico e todos os que executam um teste de hipótese relatam seus valores- brutos a esse déspota. Ele realiza algum tipo de correção (literalmente) global de comparações múltiplas e responde com as versões corrigidas. $p$

Isso daria início a uma era de ouro da ciência e da razão? Não, provavelmente não.

Vamos começar considerando um par de hipóteses, como em um teste . Medimos algumas propriedades de dois grupos e queremos distinguir entre duas hipóteses sobre essa propriedade: Em uma amostra finita, é improvável que os meios sejam exatamente iguais, mesmo que seja realmente verdadeiro: erro de medição e outras fontes de variabilidade podem forçar valores individuais. No entanto, o

t

$t$

\begin{aligned} H_{0 0} : & Os grupos têm a mesma média. \\ H_{UMA} : & Os grupos têm meios diferentes. \end{aligned}

$\begin{align} H_0:& \textrm{ The groups have the same mean.} \\ H_A:& \textrm{ The groups have different means.} \end{align}$

H_{0}

$H_0$

H_{0}

$H_0$ a hipótese é, em certo sentido, "entediante", e os pesquisadores geralmente se preocupam em evitar uma situação "falso-positiva", na qual afirmam ter encontrado uma diferença entre os grupos onde realmente não existe. Portanto, chamamos os resultados apenas de "significativos" se parecerem improváveis sob a hipótese nula e, por convenção, esse limite de improvabilidade é fixado em 5%.

Isso se aplica a um único teste. Agora, suponha que você decida executar vários testes e esteja disposto a aceitar uma chance de 5% de aceitar por engano para cada um. Com testes suficientes, você quase certamente começará a cometer erros, e muitos deles. $H_0$

As várias abordagens de correções múltiplas têm como objetivo ajudá-lo a retornar a uma taxa de erro nominal que você já escolheu tolerar para testes individuais. Eles fazem isso de maneiras ligeiramente diferentes. Os métodos que controlam a Taxa de erro da família Wise , como os procedimentos Bonferroni , Sidak e Holm , dizem "Você queria uma chance de 5% de cometer um erro em um único teste, para garantir que não haja mais que 5" % de chance de cometer erros em todos os seus testes. " Métodos que controlam a taxa de descoberta falsaem vez disso, diga "Parece que você está errado em errar até 5% do tempo com um único teste, portanto, garantiremos que não mais de 5% de suas 'chamadas' estejam erradas ao fazer vários testes". (Veja a diferença?)

Agora, suponha que você tentou controlar a taxa de erro familiar de todos os testes de hipótese já executados. Você está basicamente dizendo que deseja uma chance <5% de rejeitar falsamente qualquer hipótese nula, jamais. Isso estabelece um limite impossivelmente rigoroso e a inferência seria efetivamente inútil, mas há uma questão ainda mais premente: sua correção global significa que você está testando "hipóteses compostas" absolutamente absurdas, como

\begin{aligned} H_{1} : & Droga XYZ altera contagem de células T \land \\ Uvas crescem melhor em alguns campos \land \\ ... \land ... \land ... \land ... \land \\ Homens e mulheres comem quantidades diferentes de sorvete \end{aligned}

$\begin{align} H_1: &\textrm{Drug XYZ changes T-cell count } \wedge \\ &\textrm{Grapes grow better in some fields } \wedge&\\ &\ldots \wedge \ldots \wedge \ldots \wedge \ldots \wedge \\&\textrm{Men and women eat different amounts of ice cream} \end{align}$

Com as correções da taxa de descoberta falsa, o problema numérico não é tão grave, mas ainda é uma bagunça filosoficamente. Em vez disso, faz sentido definir uma "família" de testes relacionados, como uma lista de genes candidatos durante um estudo genômico ou um conjunto de caixas de frequência de tempo durante uma análise espectral. Adaptar sua família a uma pergunta específica permite que você realmente interprete seu erro do Tipo I de maneira direta. Por exemplo, você pode olhar para um conjunto de valores p corrigidos pela FWER a partir de seus próprios dados genômicos e dizer "Há uma chance <5% de que qualquer um desses genes seja falso-positivo". Isso é muito melhor do que uma garantia nebulosa que cobre inferências feitas por pessoas com as quais você não se importa em tópicos que não lhe interessam.

O outro lado disso é que a escolha apropriada de "família" é discutível e um pouco subjetiva (todos os genes são uma família ou posso apenas considerar as cinases?), Mas deve ser informada pelo seu problema e não acredito em ninguém defendeu seriamente a definição de famílias quase tão extensivamente.

E Bayes?

A análise bayesiana oferece uma alternativa coerente a esse problema - se você estiver disposto a se afastar um pouco da estrutura de erro Frequentist Tipo I / Tipo II. Começamos com um pouco de não comprometimento antes de ... bem ... tudo. Toda vez que aprendemos algo, essa informação é combinada com o anterior para gerar uma distribuição posterior, que por sua vez se torna o anterior para a próxima vez que aprendemos algo. Isso fornece uma regra de atualização coerente e você pode comparar diferentes hipóteses sobre coisas específicas, calculando o fator Bayes entre duas hipóteses. Presumivelmente, você poderia levar em consideração grandes partes do modelo, o que nem tornaria isso particularmente oneroso.

Há um meme persistente de que os métodos bayesianos não exigem correções de comparações múltiplas. Infelizmente, as probabilidades posteriores são apenas mais uma estatística de teste para os freqüentadores (ou seja, pessoas que se preocupam com erros do tipo I / II). Eles não têm propriedades especiais que controlam esses tipos de erros (por que eles teriam?) Assim, você está de volta a um território intratável, mas talvez em terreno um pouco mais de princípios.

O contra-argumento bayesiano é que devemos nos concentrar no que podemos saber agora e, portanto, essas taxas de erro não são tão importantes.

Sobre Reprodutibilidade

Parece que você está sugerindo que a correção incorreta de comparações múltiplas é a razão por trás de muitos resultados incorretos / improdutíveis. Meu senso é que outros fatores têm maior probabilidade de ser um problema. Um exemplo óbvio é que a pressão para publicar leva as pessoas a evitar experimentos que realmente enfatizem suas hipóteses (ou seja, projeto experimental ruim).

Por exemplo, [neste experimento] (parte da iniciativa de reprodutibilidade 6 da Amgen (ir) , verifica-se que os camundongos tinham mutações em outros genes que não o gene de interesse. Andrew Gelman também gosta de falar sobre o Garden of Forking Paths , em que os pesquisadores escolhem um plano de análise (razoável) com base nos dados, mas podem ter feito outras análises se os dados parecerem diferentes, o que aumenta os valores de maneira semelhante a comparações múltiplas, mas é muito mais difícil de corrigir posteriormente. pode também desempenhar um papel, mas meu sentimento (e esperança) é que isso esteja melhorando gradualmente. $p$

Matt Krause
fonte

Obrigado Matt. Eu amo a idéia de um "sultão estatístico". Ainda assim, é possível controlar a taxa de falsas descobertas sem aplicar alguma correção?

Kelvin

O ponto que eu estava tentando fazer é que não faz sentido se preocupar com o falso Descoberta Rate (ou taxa de erro familywise) em todos os empreendimentos humanos. Fazer isso exigiria tanta aversão ao risco que você nunca faria nada. Em vez disso, você mantém o FDR / FWER para experiências individuais muito baixo e tenta replicar as coisas significativas que também são interessantes / úteis / etc.

Matt Krause

Obrigado, acho que no final tudo se resume à replicação de coisas importantes. Isso é totalmente consistente com a filosofia da ciência, de que nenhuma hipótese pode ser comprovada, apenas fortalecida ao longo do tempo por experimentos repetidos.

Kelvin

+1 para o sultão estatístico. Uma consideração importante: como Sultan deve lidar com o fato de que os valores-p chegam sucessivamente? Um péssimo p = 0,045 chegando primeiro será considerado significativo, mas depois de alguns séculos não haverá chance? Isso não parece fazer sentido (cc para @ Kelvin). Outra consideração: imagine que o sultão esperasse, digamos, 1 ano e aplique a correção a todos os resultados do ano passado; Eu me pergunto o que o limite alfa ajustado realmente se tornaria na prática. Alguma idéia sobre isso, Matt? Isso é (falsamente!), Supondo que todos concordem com um alfa comum.

Ameba diz Reinstate Monica

@amoeba, essa é uma pergunta interessante e não sei ao certo. Nosso amado Data Despot pode forçar todos a usar algum tipo de design seqüencial, o que pode ajudar, mas ele ainda está testando essa estranha hipótese composta. Como alternativa, todos nós podemos nos tornar bayesianos e parar de nos preocupar com o histórico de erros do Tipo I / II na maioria das vezes. Isso é um pouco barato (se você não pode vencê-los, ignore-os!), Mas acho que está próximo de como as pessoas se comportam na prática.

Matt Krause

Eu acho que você pinta deliberadamente uma visão pessimista da ciência produzida pela estatística. De fato, na minha opinião, a estatística não é apenas um conjunto de ferramentas que fornece valores de p. Há também um estado de rigor, cuidado e atenção a alguns possíveis efeitos envolvidos no procedimento de indução científica ... e, enquanto penso que tudo o que você afirma é aproximadamente verdade, aqui estão algumas das minhas opiniões sobre por que temos algumas garantias sobre o conhecimento que produzimos:

Primeiro, em geral, uma conclusão não deve ser alcançada apenas sob o argumento de um valor p inferior a um determinado limite.
Segundo, para meu conhecimento, argumentos do tipo "mais da metade dos resultados científicos publicados estão errados" são relevantes e interessantes, mas são calculados com base em valores de p aproximadamente iguais a 0,05 (ver, por exemplo, Confusão em relação aos valores de p e taxa de falsas descobertas ) . Para valores de p mais baixos, o efeito é muito menor que o anunciado e, na prática, não é raro obter valores de p muito menores que 0,05. Além disso, muitas vezes uma dada hipótese é confirmada por várias sub-hipóteses que novamente reduzem os efeitos anunciados.
Terceiro, a questão da reprodutibilidade é genuína, mas também é um problema que deve ser tratado pelo estatístico, identificando e lidando com efeitos confusos, projetos de grupos ... e isso pode ser feito muito bem se for feito com perícia e rigor.
Por fim, pelo que entendi, um estudo estatístico arquetípico deve permanecer mais ou menos nos 5 passos seguintes:
```
Formulate one or a few hypotheses
Design the corresponding study
Acquire the data
Analyse the data
Make conclusions about the above hypotheses (and only these ones)
```
Esta diretriz geral nos impede de expedições de pesca como uma ferramenta para produzir conclusões gerais.

Para concluir, eu diria que sua intenção de nos proteger contra más conclusões científicas com valores-p acima do limite é um pouco ilusória. Eu preferiria nos proteger contra más conclusões científicas, garantindo e incentivando análises adequadas e advertidas (e gostaria de pensar que essa é uma razão pela qual tantas pessoas qualificadas estão aqui para ajudar outras pessoas neste site).

peuhp
fonte

Não acho que ajude a ficar na defensiva. A questão atual da irreprodutibilidade na ciência não é apenas "interessante", está em um momento de crise e está na capa da Nature e até do Economist, desde se acredita em um estudo específico (ou mesmo na eficácia de um medicamento aprovado). ) agora não é melhor do que uma troca de moedas, apesar de bilhões de dólares investidos.

Kelvin

Concordo que existe uma crise. O que quero dizer é que você pode inspecionar a qualidade da moeda. Nem todos os papéis são da mesma qualidade e, pela minha experiência, às vezes é fácil apontar falhas no papel. Eu não nego o problema nego a solução: basta produzir análise adequada :)

peuhp

Ok, obrigado, eu respeito sua resposta. Mas ainda do ponto de vista estatístico, e independentemente da qualidade das experiências, nunca podemos controlar a taxa geral de falsas descobertas sem aplicar alguma correção, não é?

Kelvin

É possível controlar a taxa de descoberta falsa sem aplicar alguma correção?

$100\,a$ $a$

Lembre-se de que as taxas de erro (freqüentistas) não dizem respeito a nenhuma probabilidade sobre uma hipótese testada por qualquer teste individual, mas como métodos para a realização de testes com taxas de falha garantidas a longo prazo. A correção para comparações múltiplas é outro método para garantir taxas de falha a longo prazo: um para a construção de métodos compostos que contêm vários testes, de modo a manter alguma taxa de falha garantida a longo prazo para o composto.

Se você realizar um único experimento com 100 testes e relatar que 5 deles falaram contra o nulo, alegando que você observou algum resultado real, ninguém ficará impressionado, sabendo que, em média, entre 100 testes de nulos verdadeiros, 5% rejeitar; o método empregado ", conduza 100 testes e relata se algum deles atinge o limite de 5%", tem uma taxa de falha superior a 5%. Assim, você pode optar por controlar várias comparações e relatar que, por exemplo, 2 em cada 100 testes tiveram valores de p inferiores a (5/100 == 0,05)%. Agora você emprega um método que tem novamente uma taxa de falha garantida (para o erro de relatar pelo menos um teste significativo, embora nenhuma hipótese seja falsa) de 5%.

$a$ , limites não corrigidos). Por outro lado, se todos sempre testassem 100 hipóteses verdadeiras por estudo e não aplicassem FEW, o número de experimentos que relatam efeitos significativos excederia a taxa de erro garantida de 5%. (Contraste com FDR / taxa de detecção falsa, que não é um método que garanta a taxa de notificação de qualquer teste significativo em um estudo de vários testes de hipóteses verdadeiras.)

jona
fonte

O que você chama de "taxa de falsas descobertas" no seu primeiro parágrafo não é o que é conhecido como "taxa de falsas descobertas".

Ameba diz Reinstate Monica