O que significa que um estudo está sobrecarregado?
Minha impressão é que isso significa que os tamanhos das suas amostras são tão grandes que você tem o poder de detectar tamanhos de efeito minúsculos. Esses tamanhos de efeito são talvez tão pequenos que são mais propensos a resultar de pequenos vieses no processo de amostragem do que uma conexão causal (não necessariamente direta) entre as variáveis.
Essa é a intuição correta? Nesse caso, não vejo qual é o problema, contanto que os resultados sejam interpretados sob essa luz e você verifique manualmente e verifique se o tamanho estimado do efeito é grande o suficiente para ser "significativo" ou não.
Estou esquecendo de algo? Existe uma recomendação melhor sobre o que fazer nesse cenário?
Respostas:
Eu acho que sua interpretação está incorreta.
Você diz: "Esses tamanhos de efeito são talvez tão pequenos quanto resultam mais provavelmente de pequenos vieses no processo de amostragem do que uma conexão causal (não necessariamente direta) entre as variáveis", o que parece implicar que o valor de P em uma 'sobrecarga' estudo não é o mesmo tipo de valor de P de um estudo 'propriamente' desenvolvido. Isso esta errado. Nos dois casos, o valor P é a probabilidade de obter dados tão extremos quanto os observados, ou mais extremos, se a hipótese nula for verdadeira.
Se você preferir a abordagem de Neyman-Pearson, a taxa de erros positivos falsos obtidos no estudo 'sobre-alimentação' é a mesma de um estudo 'adequadamente' se o mesmo valor alfa for usado para ambos.
A diferença de interpretação necessária é que existe uma relação diferente entre significância estatística e significância científica para estudos sobrecarregados. De fato, o estudo sobrecarregado dará uma grande probabilidade de obter significância, mesmo que o efeito seja, como você diz, minúsculo e, portanto, de importância questionável.
Desde que os resultados de um estudo com excesso de potência sejam interpretados adequadamente (e os intervalos de confiança para o tamanho do efeito ajudem nessa interpretação), não há problema estatístico com um estudo com excesso de potência. Sob esse prisma, os únicos critérios pelos quais um estudo pode realmente ser sobrecarregado são as questões éticas e de alocação de recursos levantadas em outras respostas.
fonte
Em pesquisas médicas, os ensaios podem ser antiéticos se recrutarem muitos pacientes. Por exemplo, se o objetivo é decidir qual tratamento é melhor, não é mais ético tratar pacientes com o pior tratamento depois que ele foi estabelecido como inferior. É claro que aumentar o tamanho da amostra forneceria uma estimativa mais precisa do tamanho do efeito, mas talvez seja necessário parar bem antes que apareçam os efeitos de fatores como "ligeiros vieses no processo de amostragem".
Também pode ser antiético gastar dinheiro público em pesquisas suficientemente confirmadas.
fonte
Tudo o que você disse faz sentido (embora eu não saiba a que "grande coisa" você está se referindo), e eu particularmente. como seu argumento sobre tamanhos de efeito, em oposição à significância estatística. Outra consideração é que alguns estudos exigem a alocação de recursos escassos para obter a participação de cada caso e, portanto, não se deve exagerar.
fonte
Minha experiência vem de experimentos A / B on-line, onde o problema geralmente é de pouca potência ou medindo as coisas erradas. Mas parece-me que um estudo com excesso de poder produz intervalos de confiança mais estreitos do que estudos comparáveis, valores-p mais baixos e possivelmente variação diferente. Imagino que isso possa dificultar a comparação de estudos semelhantes. Por exemplo, se eu repetisse um estudo sobrecarregado usando energia adequada, meu valor-p seria maior mesmo se eu replicasse exatamente o efeito. O aumento do tamanho da amostra pode uniformizar a variabilidade ou introduzir variabilidade se houver discrepâncias que possam ter uma chance maior de aparecer em uma amostra maior.
Além disso, minhas simulações mostram que outros efeitos além daqueles em que você está interessado podem se tornar significativos com uma amostra maior. Portanto, enquanto o valor p indica corretamente a probabilidade de que seus resultados sejam reais, eles podem ser reais por outras razões além do que você pensa, por exemplo, uma combinação de chance, algum efeito transitório que você não controlou e talvez outros menor efeito que você introduziu sem perceber. Se o estudo for um pouco dominado, o risco disso é baixo. O problema geralmente é difícil saber a potência adequada, por exemplo, se as métricas da linha de base e o efeito-alvo mínimo são suposições ou se apresentam diferentes do esperado.
Também deparei com um artigo que argumenta que uma amostra muito grande pode tornar um teste de qualidade de ajuste muito sensível a desvios inconseqüentes, levando a resultados potencialmente contra-intuitivos.
Dito isto, acredito que é melhor errar do lado da alta do que da baixa potência.
fonte