Por que os estatísticos nos desencorajam a nos referir aos resultados como " altamente significativos" quando o valor- está bem abaixo do nível α convencional de 0,05 ?
É realmente errado confiar em um resultado com 99,9% de chance de não ser um erro do tipo I ( ) a mais do que em um resultado que só lhe dá essa chance em 99% ( p = 0,01 )?
Respostas:
Eu acho que não há muito erro em dizer que os resultados são "altamente significativos" (embora sim, é um pouco desleixado).
Isso significa que, se você tivesse definido um nível de significância muito menor , ainda assim os resultados seriam considerados significativos. Ou, de forma equivalente, se alguns de seus leitores tiverem um α muito menor em mente, eles ainda poderão julgar seus resultados como significativos.α α
Observe que o nível de significância está nos olhos de quem vê, enquanto o valor p é (com algumas ressalvas) uma propriedade dos dados.α p
Observar não é o mesmo que observar p = 0,04 , embora ambos possam ser chamados de "significativos" pelas convenções padrão do seu campo ( α = 0,05 ). O minúsculo valor p significa evidência mais forte contra o nulo (para quem gosta da estrutura de teste de hipóteses de Fisher); significa que o intervalo de confiança em torno do tamanho do efeito excluirá o valor nulo com uma margem maior (para aqueles que preferem ICs a valores de p ); significa que a probabilidade posterior do nulo será menor (para bayesianos com alguns anteriores); tudo isso é equivalente e simplesmente significa que as descobertas são mais convincentesp = 10- 10 p = 0,04 α = 0,05 p p . Consulte Valores-p menores são mais convincentes? para mais discussão.
O termo "altamente significativo" não é preciso e não precisa ser. É um julgamento subjetivo de um especialista, semelhante a observar um tamanho de efeito surpreendentemente grande e chamá-lo de "enorme" (ou talvez simplesmente "muito grande"). Não há nada errado em usar descrições qualitativas e subjetivas de seus dados, mesmo na redação científica; desde que, é claro, a análise quantitativa objetiva também seja apresentada.
Veja também alguns excelentes comentários acima, +1 a @whuber, @Glen_b e @COOLSerdash.
fonte
Essa é uma pergunta comum.
Uma pergunta semelhante pode ser "Por que p <= 0,05 é considerado significativo?" ( http://www.jerrydallal.com/LHSP/p05.htm )
@ Michael-Mayer deu uma parte da resposta: o significado é apenas uma parte da resposta. Com dados suficientes, geralmente alguns parâmetros aparecerão como "significativos" (consulte a correção de Bonferroni). O teste múltiplo é um problema específico em genética, onde grandes estudos em busca de significância são comuns e valores de p <10 -8 são frequentemente necessários ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).
Além disso, um problema com muitas análises é que elas eram oportunistas e não pré-planejadas (ou seja, "Se você torturar os dados o suficiente, a natureza sempre confessará." - Ronald Coase).
Geralmente, se uma análise é pré-planejada (com uma correção de análise repetida para poder estatístico), ela pode ser considerada significativa. Frequentemente, o teste repetido por vários indivíduos ou grupos é a melhor maneira de confirmar que algo funciona (ou não). E a repetição dos resultados costuma ser o teste certo para significância.
fonte
Um teste é uma ferramenta para uma decisão em preto e branco, ou seja, tenta responder a uma pergunta de sim / não como 'existe um verdadeiro efeito de tratamento?'. Frequentemente, especialmente se o conjunto de dados é grande, essa pergunta é um grande desperdício de recursos. Por que fazer uma pergunta binária se é possível obter uma resposta para uma pergunta quantitativa como 'qual é o tamanho do verdadeiro efeito do tratamento?' que responde implicitamente também à pergunta sim / não? Portanto, em vez de responder a uma pergunta não informativa de sim / não com alta certeza, geralmente recomendamos o uso de intervalos de confiança que contêm muito mais informações.
fonte