Os estudos com pouca capacidade aumentam a probabilidade de falsos positivos?

23

Esta pergunta foi feita antes aqui e aqui, mas não acho que as respostas abordem a questão diretamente.

Os estudos com pouca capacidade aumentam a probabilidade de falsos positivos? Alguns artigos de notícias fazem essa afirmação. Por exemplo :

Baixo poder estatístico é uma má notícia. Estudos com baixa potência têm maior probabilidade de perder efeitos genuínos e, como grupo, têm maior probabilidade de incluir uma proporção maior de falsos positivos - isto é, efeitos que atingem significância estatística, mesmo que não sejam reais.

Pelo que entendi, o poder de um teste pode ser aumentado por:

aumentando o tamanho da amostra
tendo um tamanho de efeito maior
aumentando o nível de significância

Supondo que não queremos alterar o nível de significância, acredito que a citação acima se refere à alteração do tamanho da amostra. No entanto, não vejo como a diminuição da amostra deve aumentar o número de falsos positivos. Simplificando, reduzir o poder de um estudo aumenta as chances de falsos negativos, o que responde à pergunta:

P (failure to reject H_{0} | H_{0} is false)

$P(\text{failure to reject }H_{0}|H_{0}\text{ is false})$

Pelo contrário, os falsos positivos respondem à pergunta:

P (reject H_{0} | H_{0} is true)

$P(\text{reject }H_{0}|H_{0}\text{ is true})$

Ambas são questões diferentes porque os condicionais são diferentes. O poder está (inversamente) relacionado a falsos negativos, mas não a falsos positivos. Estou esquecendo de algo?

hypothesis-testing power false-discovery-rate Robert Smith
fonte

4

Não é a taxa de falsos positivos que depende do poder estatístico, mas a "taxa de falsas descobertas":

P (H_{0} is true | reject H_{0})

$P(H_0 \text{is true}| \text{reject} H_0)$

Jake Westfall

2

Sim, essa parece ser a interpretação correta da afirmação no artigo da Wired.

Robert Smith

30

Você está correto, pois o tamanho da amostra afeta a energia (erro 1 do tipo II), mas não o erro tipo I. É um equívoco comum que um valor p como tal (interpretado corretamente) seja menos confiável ou válido quando o tamanho da amostra é pequeno - o artigo muito divertido de Friston 2012 tem uma opinião engraçada sobre isso [1].

Dito isto, os problemas dos estudos com pouca capacidade são reais, e a citação está amplamente correta, eu diria, apenas um pouco imprecisa em sua redação.

O problema básico dos estudos com pouca potência é que, embora a taxa de falsos positivos (erro tipo I) nos testes de hipótese seja fixa, a taxa de verdadeiros positivos (potência) diminui. Portanto, é menos provável que um resultado positivo (= significativo) seja um verdadeiro positivo em um estudo de baixa potência. Essa idéia é expressa na taxa de falsas descobertas [2], veja também [3]. Parece a que a citação se refere.

Uma questão adicional frequentemente mencionada em relação aos estudos de menor poder é que eles levam a tamanhos de efeito superestimados. A razão é que: a) com menor potência, suas estimativas dos efeitos verdadeiros se tornarão mais variáveis (estocásticas) em torno de seu verdadeiro valor eb) apenas o mais forte desses efeitos passará no filtro de significância quando a energia estiver baixa. Deve-se acrescentar, porém, que esse é um problema de relatório que pode ser facilmente resolvido discutindo e relatando todos e não apenas os efeitos significativos.

Finalmente, uma questão prática importante com estudos com pouca potência é que a baixa potência aumenta as questões estatísticas (por exemplo, o viés dos estimadores), bem como a tentação de brincar com variáveis e táticas similares de hackers. O uso desses "graus de liberdade do pesquisador" é mais eficaz quando a energia é baixa, e ISTO pode aumentar o erro do tipo I, afinal, veja, por exemplo, [4].

Por todas essas razões, eu ficaria, de fato, cético em relação a um estudo de baixa potência.

[1] Friston, K. (2012) Dez regras irônicas para revisores não estatísticos. NeuroImage, 61, 1300-1310.

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] Botão, KS; Ioannidis, JPA; Mokrysz, C .; Nosek, BA; Flint, J .; Robinson, ESJ & Munafo, MR (2013) Falha de energia: por que o tamanho pequeno da amostra prejudica a confiabilidade da neurociência. Nat. Rev. Neurosci., 14, 365-376

[4] Simmons, JP; Nelson, LD & Simonsohn, U. (2011) Psicologia falso-positiva: flexibilidade não revelada na coleta e análise de dados permite apresentar qualquer coisa como significativa. Psychol Sei., 22, 1359-1366.

Florian Hartig
fonte

Obrigado. Excelentes referências. Para completar, [1] pode ser encontrado aqui e [3] está disponível aqui . Quando você fala sobre a taxa de falsas descobertas, tem certeza de que esse é o conceito certo? Com base em [3], talvez você queira dizer o valor preditivo positivo (VPP) no qual os estudos de baixo poder têm VPP mais baixo (ou seja, os verdadeiros positivos não são tão freqüentes quanto deveriam em um estudo de alta potência) Parece que a taxa de falsas descobertas é o complemento do PPV.

Robert Smith

Pelo que entendi, esses conceitos são idênticos, PPV = 1-FDR. Prefiro o uso de FDR porque acho a palavra intuitivamente melhor.

Florian Hartig

Veja também aqui en.wikipedia.org/wiki/Positive_and_negative_predictive_values

Florian Hartig

2

Tal Yarkoni aponta todas as coisas erradas sobre o artigo de Friston aqui .

Jona

1

@jona - acho que Tal Yarkoni levanta alguns bons pontos em seu blog. Eu acho que o resumo de uma frase seria "baixa potência é um problema", que é exatamente o que eu digo acima. Ainda acho engraçado a caricatura de comentários de revisores de Friston, porque acontece que os revisores "acham o tamanho da amostra muito baixo" sem um argumento convincente que envolve ter calculado o poder.

Florian Hartig

6

Dependendo de como você olha para ele, a baixa potência pode aumentar as taxas de falsos positivos em determinados cenários.

Considere o seguinte: um pesquisador testa um tratamento. Se o teste voltar como insignificante, eles o abandonam e passam para o próximo tratamento. Se o teste voltar significativo, eles o publicam. Vamos considerar também que o pesquisador testará alguns tratamentos que funcionam e outros que não. Se o pesquisador tiver alto poder (é claro que se refere ao caso em que está testando um tratamento que funciona), é muito provável que ele pare assim que testar um tratamento eficaz. Por outro lado, com baixo consumo de energia, eles provavelmente perderão o verdadeiro efeito do tratamento e passarão para outros tratamentos. Quanto mais tratamentos nulos forem testados, maior a probabilidade de cometer um erro do tipo I (esse pesquisador não leva em consideração comparações múltiplas). No caso de baixa potência, espera-se que eles testem muito mais tratamentos nulos,

Você pode dizer "bem, este é apenas um pesquisador que está abusando de múltiplas comparações!". Bem, isso pode ser verdade, mas também é assim que muitas pesquisas são feitas atualmente. Por exatamente essas razões, eu pessoalmente tenho pouca fé no trabalho publicado, a menos que tenha um tamanho de amostra suficientemente grande para que o pesquisador não possa se dar ao luxo de repetir o mesmo experimento várias vezes.

Cliff AB
fonte

1

Obrigado. Mesmo ignorando o caso de várias comparações (sem correções adequadas), acho que você está descrevendo outra instância do PPV, conforme descrito aqui . Não consigo colar o parágrafo, mas ele começa com (

For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null

)

Robert Smith

1

Ah, sim, isso descreve de perto o que eu estava me referindo. A menor distinção é que estou dizendo "Em um determinado procedimento experimental , ter uma potência baixa individual em cada teste de um efeito real aumenta as chances de se cometer um erro do tipo I em todo o procedimento experimental ". Obviamente, isso é diferente de aumentar a taxa de erro do tipo I em cada teste estatístico. Além disso, é apenas nos sentidos mais técnicos diferentes do PPV. Mas é a única maneira pela qual a declaração da mídia "baixa potência aumenta erros do tipo I" faz sentido (e acho que faz muito sentido).

Cliff AB

4

A baixa energia não pode afetar a taxa de erro do Tipo 1, mas pode afetar a proporção de resultados publicados que são erros do tipo 1.

O motivo é que a baixa potência reduz as chances de uma rejeição correta de H0 (erro tipo 2), mas não as chances de uma falsa rejeição de H0 (erro tipo 1).

Suponha por um segundo que haja duas literaturas ... uma conduzida com potência muito baixa - quase zero - e a outra conduzida com energia adequada. Nas duas literaturas, você pode supor que quando H0 for falso, você ainda obterá falsos positivos algumas vezes (por exemplo, 5% para alfa = 0,05). Supondo que os pesquisadores nem sempre estejam corretos em suas hipóteses, podemos assumir que ambas as literaturas devem ter um NÚMERO de erros do tipo 1 semelhante, boa potência ou não. Isso ocorre porque a taxa de erros do tipo 1 não é afetada pela energia, como outros já disseram.

No entanto, na literatura com baixa potência, você também teria muitos erros do tipo 2. Em outras palavras, a literatura de baixa potência deve NÃO ter rejeições corretas de H0, tornando os erros do tipo 1 uma proporção maior da literatura. Na literatura de alta potência, você deve ter uma mistura de rejeições corretas e incorretas de H0.

Então, a baixa potência aumenta os erros do tipo 1? Não. No entanto, torna mais difícil encontrar efeitos verdadeiros, tornando os erros do tipo 1 uma proporção maior de descobertas publicadas.

Tom Carpenter
fonte

1

Obrigado. E o PPV? No artigo referenciado por Florian Hartig, há a alegação de que, dado um erro do tipo I, quanto menor a potência, menor o PPV. Se o PPV for menor, o que significa que o número de descobertas reivindicadas verdadeiras é menor, o número de descobertas reivindicadas falsas (falsos positivos) deve aumentar.

Robert Smith

0

Além das outras respostas, um estudo geralmente é insuficiente quando o tamanho da amostra é pequeno. Existem muitos testes que são apenas assintoticamente válidos e muito otimistas ou conservadores para pequenos n.

Outros testes são válidos apenas para amostras pequenas, se certas condições forem atendidas, mas tornam-se mais robustas com uma amostra grande (por exemplo, teste t).

Em ambos os casos, o tamanho pequeno da amostra e a suposição não atendida podem levar a um aumento da taxa de erro do tipo I. Ambas as situações ocorrem com frequência suficiente para eu considerar a resposta real à sua pergunta: não na teoria, mas na prática.

Erik
fonte

Os estudos com pouca capacidade aumentam a probabilidade de falsos positivos?

Respostas: