Eu tive uma discussão com um estatístico em 2009, onde ele afirmou que o valor exato de um valor-p é irrelevante: a única coisa importante é se é significativo ou não. Ou seja, um resultado não pode ser mais significativo que outro; suas amostras, por exemplo, são da mesma população ou não.
Eu tenho algumas dúvidas com isso, mas talvez eu possa entender a ideologia:
O limite de 5% é arbitrário, ou seja, que p = 0,051 não é significativo e que p = 0,049 é, realmente não deve mudar a conclusão de sua observação ou experimento, apesar de um resultado ser significativo e o outro não significativo.
A razão pela qual eu trouxe isso à tona agora é que estou estudando para um mestrado em Bioinformática e, depois de conversar com pessoas da área, parece haver uma unidade determinada para obter um valor p exato para cada conjunto de estatísticas que eles fazem. Por exemplo, se eles 'atingirem' um valor p de p <1,9 × 10-12 , eles querem demonstrar o quão significativo é o resultado e que esse resultado é SUPER informativo. Esse problema foi exemplificado com perguntas como: Por que não consigo obter um valor p menor que 2.2e-16? , pelo qual eles desejam registrar um valor que indique que, por acaso, isso seria MUITO menor que 1 em um trilhão. Mas vejo pouca diferença em demonstrar que esse resultado ocorreria menos de 1 em um trilhão, em oposição a 1 em um bilhão.
Entendo, então, que p <0,01 mostra que há menos de 1% de chance de que isso ocorra, enquanto p <0,001 indica que um resultado como esse é ainda mais improvável do que o valor p mencionado, mas suas conclusões devem ser completamente diferente? Afinal, ambos são valores de p significativos. A única maneira de conceber querer registrar o valor p exato é durante uma correção de Bonferroni, na qual o limite muda devido ao número de comparações feitas, diminuindo o erro do tipo I. Mas, ainda assim, por que você gostaria de mostrar um valor-p que é 12 ordens de grandeza menor que a significância do seu limite?
E a aplicação da correção de Bonferroni também não é arbitrária? No sentido de que inicialmente a correção é vista como muito conservadora, e, portanto, existem outras que podem ser escolhidas para acessar o nível de significância que o observador poderia usar para suas múltiplas comparações. Mas, por causa disso, não é o ponto em que algo se torna substancialmente variável, dependendo de quais estatísticas o pesquisador deseja usar. As estatísticas devem ser tão abertas à interpretação?
Em conclusão, as estatísticas não deveriam ser menos subjetivas (embora eu ache que a necessidade de serem subjetivas seja uma conseqüência de um sistema multivariado), mas, em última análise, quero esclarecimentos: algo pode ser mais significativo do que alguma outra coisa? E p <0,001 será suficiente em relação à tentativa de registrar o valor p exato?
fonte
Respostas:
A taxa de erro do tipo 1 / rejeição falsa não é completamente arbitrária, mas sim, está próxima. É um pouco preferível a α = 0,051 porque é menos complexo cognitivamente (as pessoas gostam de números redondos e múltiplos de cinco ). É um compromisso decente entre ceticismo e praticidade, embora talvez um pouco desatualizado - métodos modernos e recursos de pesquisa possam tornar os padrões mais altos (ou seja, valores de p mais baixos) preferíveis, se houver padrões ( Johnson, 2013 ) .α = 0,05 α = 0,051 p
Na IMO, o problema maior do que a escolha do limiar é a opção geralmente não examinada de usar um limiar onde não é necessário ou útil. Em situações em que uma escolha prática precisa ser feita, posso ver o valor, mas muita pesquisa básica não exige a decisão de descartar as evidências e desistir da perspectiva de rejeitar o nulo apenas porque as evidências de uma determinada amostra são insuficientes. de quase qualquer limite razoável. No entanto, muitos dos autores desta pesquisa sentem-se obrigados a fazê-lo por convenção e resistem desconfortavelmente, inventando termos como significado "marginal" para pedir atenção quando podem sentir que ela está desaparecendo porque seus públicos geralmente não se importam com s ≥ . 05 .p ≥ 0,05 p interpretação do valor, você verá muita dissensão sobre a interpretação dos valores de por binários / decisões em relação ao nulo.p
fail to
reject
fail to
reject
Referências
- Johnson, VE (2013). Padrões revisados para evidência estatística. Anais da Academia Nacional de Ciências, 110 (48), 19313–19317. Recuperado em http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). Para P ou não para P: Sobre a natureza evidencial dos valores de P e seu lugar na inferência científica. arXiv: 1311.0081 [stat.ME]. Recuperado em http://arxiv.org/abs/1311.0081 .
fonte
fail to
/reject
decisão, eu acho que é muito melhor para fazer o julgamento de como uma valiosa de evidência é baseado em muito mais do que a probabilidade da amostra dado o nulo.Parece-me que, se um valor é significativo, seu valor exato é significativo.
O valor p responde a esta pergunta:
O que dizer dessa definição torna um valor exato sem sentido?
Essa é uma pergunta diferente daquela sobre valores extremos de p. O problema com as declarações que envolvem p com muitos 0s é sobre como podemos estimar p nos extremos. Como não podemos fazer isso muito bem, não faz sentido usar estimativas tão precisas de p. Esta é a mesma razão pela qual não dizemos que p = 0,0319281010012981. Não conhecemos esses últimos dígitos com nenhuma confiança.
Nossas conclusões devem ser diferentes se p <0,001 em vez de p <0,05? Ou, para usar números precisos, nossas conclusões devem ser diferentes se p = 0,00023 em vez de p = 0,035?
Acho que o problema está em como normalmente concluímos as coisas sobre p. Dizemos "significativo" ou "não significativo" com base em algum nível arbitrário. Se usarmos esses níveis arbitrários, então, sim, nossas conclusões serão diferentes. Mas não é assim que deveríamos pensar sobre essas coisas. Deveríamos observar o peso da evidência e os testes estatísticos são apenas parte dessa evidência. Vou (mais uma vez) inserir os "critérios MAGIC" de Robert Abelson:
Magnitude - qual o tamanho do efeito?
Articulação - com que precisão é afirmado? Existem muitas exceções?
Generalidade - a que grupo se aplica?
Interessante - as pessoas vão se importar?
Credibilidade - isso faz sentido?
É a combinação de tudo isso que importa. Observe que Abelson não menciona os valores de p, embora eles venham como uma espécie de híbrido de magnitude e articulação.
fonte