É errado referir-se aos resultados como sendo "altamente significativos"?

18

Por que os estatísticos nos desencorajam a nos referir aos resultados como " altamente significativos" quando o valor- está bem abaixo do nível α convencional de 0,05 ?pα0.05

É realmente errado confiar em um resultado com 99,9% de chance de não ser um erro do tipo I ( ) a mais do que em um resultado que só lhe dá essa chance em 99% ( p = 0,01 )?p=0.001p=0.01

z8080
fonte
16
Pode valer a pena ler a resposta de @ gung aqui . Resumidamente: para a decisão "significativo versus não significativo" ou "rejeitar hipótese nula vs. não rejeitar hipótese nula", importa apenas se o valor de está abaixo do seu α que você definiu antes do estudo (Neyman & Pearson) . Por outro lado, você pode considerar o valor p como uma medida contínua de evidência contra a hipótese nula que não tem "ponto de corte" (Fisher). pαp
COOLSerdash
10
Você parece ter um equívoco sério sobre valores-p (valores-p não são probabilidades de erro) que, se corrigidos, podem ajudar a entender por que você pode ouvir certas coisas de estatísticos.
cara
10
Confesso que às vezes uso frases como "altamente significativas". Em outros lugares dos relatórios, muitos dos resultados iniciais podem ter que ser ajustados para vários testes, em que "altamente significativo" adquire o significado mais técnico de "permanece significativo mesmo após o ajuste apropriado para múltiplas comparações". Mesmo quando todos os leitores concordam com o apropriado a ser usado (o que é raro para análises usadas por várias partes interessadas), o que é "significativo" ou não depende do conjunto de hipóteses que cada leitor tinha em mente antes de analisar o relatório. α
whuber
7
Nem todos os estatísticos dizem que está errado. Eu mesmo uso o termo em uma ocasião (reconhecidamente rara) - por exemplo, para indicar que nesses dados o nulo teria sido rejeitado por pessoas que operam com níveis de significância substancialmente mais baixos do que o que eu estava usando, mas é importante não atribuir mais significado a ele do que tem. Eu diria simplesmente que é preciso ter cautela - às vezes bastante - ao interpretar o significado de uma frase desse tipo, em vez de estar especificamente errado . Alguns dos pontos aqui seriam relevantes.
Glen_b -Reinstala Monica
7
(ctd) ... em comparação, acho que uma preocupação maior são as pessoas que usam testes de hipóteses que simplesmente não respondem à sua pergunta de interesse (o que eu acho que é o caso com muita frequência). É melhor focar nessa questão flagrante e importante, em vez de ser excessivamente dogmático sobre uma pequena infelicidade na maneira como expressam um valor p muito pequeno.
Glen_b -Reinstate Monica

Respostas:

17

Eu acho que não há muito erro em dizer que os resultados são "altamente significativos" (embora sim, é um pouco desleixado).

Isso significa que, se você tivesse definido um nível de significância muito menor , ainda assim os resultados seriam considerados significativos. Ou, de forma equivalente, se alguns de seus leitores tiverem um α muito menor em mente, eles ainda poderão julgar seus resultados como significativos.αα

Observe que o nível de significância está nos olhos de quem vê, enquanto o valor p é (com algumas ressalvas) uma propriedade dos dados.αp

Observar não é o mesmo que observar p = 0,04 , embora ambos possam ser chamados de "significativos" pelas convenções padrão do seu campo ( α = 0,05 ). O minúsculo valor p significa evidência mais forte contra o nulo (para quem gosta da estrutura de teste de hipóteses de Fisher); significa que o intervalo de confiança em torno do tamanho do efeito excluirá o valor nulo com uma margem maior (para aqueles que preferem ICs a valores de p ); significa que a probabilidade posterior do nulo será menor (para bayesianos com alguns anteriores); tudo isso é equivalente e simplesmente significa que as descobertas são mais convincentesp=10-10p=0,04α=0,05pp. Consulte Valores-p menores são mais convincentes? para mais discussão.

O termo "altamente significativo" não é preciso e não precisa ser. É um julgamento subjetivo de um especialista, semelhante a observar um tamanho de efeito surpreendentemente grande e chamá-lo de "enorme" (ou talvez simplesmente "muito grande"). Não há nada errado em usar descrições qualitativas e subjetivas de seus dados, mesmo na redação científica; desde que, é claro, a análise quantitativa objetiva também seja apresentada.


Veja também alguns excelentes comentários acima, +1 a @whuber, @Glen_b e @COOLSerdash.

ameba diz Restabelecer Monica
fonte
2
Acordado. O valor é um indicador quantitativo; portanto, falar assim, embora impreciso fora de algum contexto, não é ipso facto inválido, assim como dizer "Bill é alto" e "Fred é realmente alto" é o uso inválido do inglês. Também devemos ver os números e seu contexto, etc., etc. Nada disso impede aqueles que desejam ou precisam tomar decisões precisas em P < 0,05 ou o que fazem exatamente como desejam, mas suas preferências não prevalecem. esta. PP<0,05
Nick Cox
Não é nada desleixado. Está bem documentado como tendo uma definição formal.
Coruja
3

Essa é uma pergunta comum.

Uma pergunta semelhante pode ser "Por que p <= 0,05 é considerado significativo?" ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Michael-Mayer deu uma parte da resposta: o significado é apenas uma parte da resposta. Com dados suficientes, geralmente alguns parâmetros aparecerão como "significativos" (consulte a correção de Bonferroni). O teste múltiplo é um problema específico em genética, onde grandes estudos em busca de significância são comuns e valores de p <10 -8 são frequentemente necessários ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

Além disso, um problema com muitas análises é que elas eram oportunistas e não pré-planejadas (ou seja, "Se você torturar os dados o suficiente, a natureza sempre confessará." - Ronald Coase).

Geralmente, se uma análise é pré-planejada (com uma correção de análise repetida para poder estatístico), ela pode ser considerada significativa. Frequentemente, o teste repetido por vários indivíduos ou grupos é a melhor maneira de confirmar que algo funciona (ou não). E a repetição dos resultados costuma ser o teste certo para significância.

Bill Denney
fonte
2

Um teste é uma ferramenta para uma decisão em preto e branco, ou seja, tenta responder a uma pergunta de sim / não como 'existe um verdadeiro efeito de tratamento?'. Frequentemente, especialmente se o conjunto de dados é grande, essa pergunta é um grande desperdício de recursos. Por que fazer uma pergunta binária se é possível obter uma resposta para uma pergunta quantitativa como 'qual é o tamanho do verdadeiro efeito do tratamento?' que responde implicitamente também à pergunta sim / não? Portanto, em vez de responder a uma pergunta não informativa de sim / não com alta certeza, geralmente recomendamos o uso de intervalos de confiança que contêm muito mais informações.

Michael M
fonte
2
+1 Embora você possa ser mais explícito em como isso responde à pergunta do OP (não é tão óbvio).
@ Matthew: Eu concordo plenamente.
Michael M
Obrigado Michael. Mas acho que os intervalos de confiança (que dão a resposta de "escala contínua") se referem ao tamanho do efeito, certo? Mesmo assim, não é necessária uma resposta binária para complementar a resposta contínua, ou seja, se esse efeito (cujo tamanho é descrito pelos ICs) atende ou não ao nível α acordado? Ou talvez você possa até fornecer ICs para o próprio valor de p?
Z8080
(A) "Tamanho do efeito" geralmente se refere a uma versão padronizada do efeito do tratamento e, portanto, menos fácil de interpretar do que o próprio efeito. (B) O IC para valores de p às vezes é adicionado para valores de p simulados para expressar incerteza na simulação. (C) Se o seu nível for 0,05, em quase todas as situações de teste, a decisão em preto / branco do teste pode ser derivada observando os 95% ci correspondentes.
22714 Michael Michael M
(cont.) Sua pergunta está de alguma forma relacionada à seguinte: É mais útil afirmar que mesmo o 99.9999% ci é incompatível com o nulo ou que mesmo o limite inferior do 95% ci para o efeito verdadeiro é muito promissor?
Michael M