O que significa que um estudo está sobrecarregado?

11

O que significa que um estudo está sobrecarregado?

Minha impressão é que isso significa que os tamanhos das suas amostras são tão grandes que você tem o poder de detectar tamanhos de efeito minúsculos. Esses tamanhos de efeito são talvez tão pequenos que são mais propensos a resultar de pequenos vieses no processo de amostragem do que uma conexão causal (não necessariamente direta) entre as variáveis.

Essa é a intuição correta? Nesse caso, não vejo qual é o problema, contanto que os resultados sejam interpretados sob essa luz e você verifique manualmente e verifique se o tamanho estimado do efeito é grande o suficiente para ser "significativo" ou não.

Estou esquecendo de algo? Existe uma recomendação melhor sobre o que fazer nesse cenário?

Frank Barry
fonte
Soa exatamente como minha compreensão intuitiva deste termo.
Henrik

Respostas:

11

Eu acho que sua interpretação está incorreta.

Você diz: "Esses tamanhos de efeito são talvez tão pequenos quanto resultam mais provavelmente de pequenos vieses no processo de amostragem do que uma conexão causal (não necessariamente direta) entre as variáveis", o que parece implicar que o valor de P em uma 'sobrecarga' estudo não é o mesmo tipo de valor de P de um estudo 'propriamente' desenvolvido. Isso esta errado. Nos dois casos, o valor P é a probabilidade de obter dados tão extremos quanto os observados, ou mais extremos, se a hipótese nula for verdadeira.

Se você preferir a abordagem de Neyman-Pearson, a taxa de erros positivos falsos obtidos no estudo 'sobre-alimentação' é a mesma de um estudo 'adequadamente' se o mesmo valor alfa for usado para ambos.

A diferença de interpretação necessária é que existe uma relação diferente entre significância estatística e significância científica para estudos sobrecarregados. De fato, o estudo sobrecarregado dará uma grande probabilidade de obter significância, mesmo que o efeito seja, como você diz, minúsculo e, portanto, de importância questionável.

Desde que os resultados de um estudo com excesso de potência sejam interpretados adequadamente (e os intervalos de confiança para o tamanho do efeito ajudem nessa interpretação), não há problema estatístico com um estudo com excesso de potência. Sob esse prisma, os únicos critérios pelos quais um estudo pode realmente ser sobrecarregado são as questões éticas e de alocação de recursos levantadas em outras respostas.

Michael Lew
fonte
Obrigado, isso é muito informativo. Entendo que a definição de valor-p não muda. Certamente do ponto de vista estatístico, a taxa de erros do tipo I não aumenta.
Frank Barry
1
Por definição, estamos corrigindo a taxa de erro do tipo I ao definir o limite do valor-p. No entanto, parece que a diferença entre significância "estatística" e "prática" é a questão aqui. Quando o tamanho da amostra é capaz de detectar diferenças muito mais finas do que o tamanho esperado do efeito, uma diferença que é estatisticamente correta e distinta não é praticamente significativa (e, da perspectiva do "usuário final", isso é efetivamente um "falso positivo", mesmo que não é estatístico). No entanto, como você diz, isso começa a sair do campo das estatísticas.
Frank Barry
1
ou seja, acho que concordo - "a diferença de interpretação que é necessário é que há uma relação diferente entre significância estatística e importância científica"
Frank Barry
4

Em pesquisas médicas, os ensaios podem ser antiéticos se recrutarem muitos pacientes. Por exemplo, se o objetivo é decidir qual tratamento é melhor, não é mais ético tratar pacientes com o pior tratamento depois que ele foi estabelecido como inferior. É claro que aumentar o tamanho da amostra forneceria uma estimativa mais precisa do tamanho do efeito, mas talvez seja necessário parar bem antes que apareçam os efeitos de fatores como "ligeiros vieses no processo de amostragem".

Também pode ser antiético gastar dinheiro público em pesquisas suficientemente confirmadas.

GaBorgulya
fonte
1

Tudo o que você disse faz sentido (embora eu não saiba a que "grande coisa" você está se referindo), e eu particularmente. como seu argumento sobre tamanhos de efeito, em oposição à significância estatística. Outra consideração é que alguns estudos exigem a alocação de recursos escassos para obter a participação de cada caso e, portanto, não se deve exagerar.

rolando2
fonte
Desculpe, "grande coisa" é um comentário editorial demais. A questão de saber se é um "negócio maior" do que eu pretendo ser é basicamente uma questão de saber se há considerações adicionais sobre as quais posso ser ignorante.
Frank Barry
0

Minha experiência vem de experimentos A / B on-line, onde o problema geralmente é de pouca potência ou medindo as coisas erradas. Mas parece-me que um estudo com excesso de poder produz intervalos de confiança mais estreitos do que estudos comparáveis, valores-p mais baixos e possivelmente variação diferente. Imagino que isso possa dificultar a comparação de estudos semelhantes. Por exemplo, se eu repetisse um estudo sobrecarregado usando energia adequada, meu valor-p seria maior mesmo se eu replicasse exatamente o efeito. O aumento do tamanho da amostra pode uniformizar a variabilidade ou introduzir variabilidade se houver discrepâncias que possam ter uma chance maior de aparecer em uma amostra maior.

Além disso, minhas simulações mostram que outros efeitos além daqueles em que você está interessado podem se tornar significativos com uma amostra maior. Portanto, enquanto o valor p indica corretamente a probabilidade de que seus resultados sejam reais, eles podem ser reais por outras razões além do que você pensa, por exemplo, uma combinação de chance, algum efeito transitório que você não controlou e talvez outros menor efeito que você introduziu sem perceber. Se o estudo for um pouco dominado, o risco disso é baixo. O problema geralmente é difícil saber a potência adequada, por exemplo, se as métricas da linha de base e o efeito-alvo mínimo são suposições ou se apresentam diferentes do esperado.

Também deparei com um artigo que argumenta que uma amostra muito grande pode tornar um teste de qualidade de ajuste muito sensível a desvios inconseqüentes, levando a resultados potencialmente contra-intuitivos.

Dito isto, acredito que é melhor errar do lado da alta do que da baixa potência.

Vlad
fonte