O valor exato de um "valor-p" não tem sentido?

31

Eu tive uma discussão com um estatístico em 2009, onde ele afirmou que o valor exato de um valor-p é irrelevante: a única coisa importante é se é significativo ou não. Ou seja, um resultado não pode ser mais significativo que outro; suas amostras, por exemplo, são da mesma população ou não.

Eu tenho algumas dúvidas com isso, mas talvez eu possa entender a ideologia:

  1. O limite de 5% é arbitrário, ou seja, que p = 0,051 não é significativo e que p = 0,049 é, realmente não deve mudar a conclusão de sua observação ou experimento, apesar de um resultado ser significativo e o outro não significativo.

    A razão pela qual eu trouxe isso à tona agora é que estou estudando para um mestrado em Bioinformática e, depois de conversar com pessoas da área, parece haver uma unidade determinada para obter um valor p exato para cada conjunto de estatísticas que eles fazem. Por exemplo, se eles 'atingirem' um valor p de p <1,9 × 10-12 , eles querem demonstrar o quão significativo é o resultado e que esse resultado é SUPER informativo. Esse problema foi exemplificado com perguntas como: Por que não consigo obter um valor p menor que 2.2e-16? , pelo qual eles desejam registrar um valor que indique que, por acaso, isso seria MUITO menor que 1 em um trilhão. Mas vejo pouca diferença em demonstrar que esse resultado ocorreria menos de 1 em um trilhão, em oposição a 1 em um bilhão.

  2. Entendo, então, que p <0,01 mostra que há menos de 1% de chance de que isso ocorra, enquanto p <0,001 indica que um resultado como esse é ainda mais improvável do que o valor p mencionado, mas suas conclusões devem ser completamente diferente? Afinal, ambos são valores de p significativos. A única maneira de conceber querer registrar o valor p exato é durante uma correção de Bonferroni, na qual o limite muda devido ao número de comparações feitas, diminuindo o erro do tipo I. Mas, ainda assim, por que você gostaria de mostrar um valor-p que é 12 ordens de grandeza menor que a significância do seu limite?

  3. E a aplicação da correção de Bonferroni também não é arbitrária? No sentido de que inicialmente a correção é vista como muito conservadora, e, portanto, existem outras que podem ser escolhidas para acessar o nível de significância que o observador poderia usar para suas múltiplas comparações. Mas, por causa disso, não é o ponto em que algo se torna substancialmente variável, dependendo de quais estatísticas o pesquisador deseja usar. As estatísticas devem ser tão abertas à interpretação?

Em conclusão, as estatísticas não deveriam ser menos subjetivas (embora eu ache que a necessidade de serem subjetivas seja uma conseqüência de um sistema multivariado), mas, em última análise, quero esclarecimentos: algo pode ser mais significativo do que alguma outra coisa? E p <0,001 será suficiente em relação à tentativa de registrar o valor p exato?

Mark Ramotowski
fonte
6
Isso é bastante interessante: stat.washington.edu/peter/342/nuzzo.pdf
Dan
4
Relacionado livremente: Na minha resposta à pergunta Quando usar a estrutura de Fisher e Neyman-Pearson , argumento que há uma função para cada estrutura. Mantendo a minha posição lá, eu diria que os valores p exatos não importariam com a estrutura NP, mas podem com a estrutura Fisherian (na medida em que o número de dígitos relatados seja realmente confiável).
gung - Restabelece Monica
É incrível o quanto alguns estatísticos querem se apegar ao conceito de valor-p, quando geralmente é a resposta certa para a pergunta errada. Suponha que os valores-p não foram implementados em nenhum pacote de software de estatísticas. Duvido que as pessoas escrevessem seu próprio código para obtê-lo.
probabilityislogic
3
@probabilityislogic - depois de cortar meus dentes estatísticos nos testes de permutação, os valores-p são uma maneira muito natural de pensar nesse caso, então eu poderia escrever meu próprio código para obtê-los se eles não fossem ... e, de fato, em nas raras ocasiões em que faço testes, geralmente são para situações atípicas que exigem simulação ou alguma forma de reamostragem. Em vez disso, eu tenderia a dizer que os testes de hipóteses respondem à pergunta errada. Nas raras ocasiões em que têm, acho que têm valor (não menos importante, outras pessoas não estão vinculadas ao meu nível de significância).
Glen_b -Reinstate Monica
@glen_b - meu problema com valores-p é que eles não fornecem "a resposta" a qualquer teste de hipótese por conta própria, pois ignoram alternativas. Se você está restrito a apenas um número, o valor da probabilidade para os dados é uma estatística muito melhor que o valor p (além de ter os mesmos problemas que p). Dessa forma, as pessoas não ficam vinculadas à sua estatística de teste escolhida (além de não estarem vinculadas ao seu limite de significância).
probabilityislogic

Respostas:

24
  1. A taxa de erro do tipo 1 / rejeição falsa não é completamente arbitrária, mas sim, está próxima. É um pouco preferível a α = 0,051 porque é menos complexo cognitivamente (as pessoas gostam de números redondos e múltiplos de cinco ). É um compromisso decente entre ceticismo e praticidade, embora talvez um pouco desatualizado - métodos modernos e recursos de pesquisa possam tornar os padrões mais altos (ou seja, valores de p mais baixos) preferíveis, se houver padrões ( Johnson, 2013 ) .α=.05α=.051p

    Na IMO, o problema maior do que a escolha do limiar é a opção geralmente não examinada de usar um limiar onde não é necessário ou útil. Em situações em que uma escolha prática precisa ser feita, posso ver o valor, mas muita pesquisa básica não exige a decisão de descartar as evidências e desistir da perspectiva de rejeitar o nulo apenas porque as evidências de uma determinada amostra são insuficientes. de quase qualquer limite razoável. No entanto, muitos dos autores desta pesquisa sentem-se obrigados a fazê-lo por convenção e resistem desconfortavelmente, inventando termos como significado "marginal" para pedir atenção quando podem sentir que ela está desaparecendo porque seus públicos geralmente não se importam com s . 05 .p.05pinterpretação do valor, você verá muita dissensão sobre a interpretação dos valores de por binários / decisões em relação ao nulo.pfail toreject

  2. ppp

    p

  3. α

    p

fail torejectp-valores serão relatados? (e por que R coloca um mínimo em 2.22e-16?) "- é muito melhor do que as respostas para a versão dessa pergunta que você vinculou no Stack Overflow!

Referências
- Johnson, VE (2013). Padrões revisados ​​para evidência estatística. Anais da Academia Nacional de Ciências, 110 (48), 19313–19317. Recuperado em http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). Para P ou não para P: Sobre a natureza evidencial dos valores de P e seu lugar na inferência científica. arXiv: 1311.0081 [stat.ME]. Recuperado em http://arxiv.org/abs/1311.0081 .

Nick Stauner
fonte
3
+1, muitos bons pensamentos aqui. No entanto, se eu me refiro ao número 1, eu diria que deveríamos ter padrões mais baixos (ou seja, valores-p mais altos) como preferível. Muitas vezes, é difícil obter dados suficientes para ter bom poder de estudar alguma coisa. Realizei várias análises de poder para médicos que desejam estudar uma condição rara. Eles dizem: 'isso é realmente pouco estudado, tenho uma ideia para uma nova abordagem, provavelmente conseguiremos 50 pacientes com isso nos próximos dois anos' e digo 'seu poder será de 45%' e o projeto é abandonado. As doenças raras continuarão sendo pouco estudadas se p for igual a 0,05 ou menos.
gung - Restabelece Monica
2
@ gung: Eu concordo completamente. Eu citei Johnson (2013) apenas porque estava ciente de seu argumento, não porque concordo com ele :) IMO, tendo um padrão convencional que é inflexível e insensível às preocupações que você descreve (que ecoam meu argumento no segundo parágrafo do meu a resposta ao item 3) é um dos principais problemas, e ajustá-lo para cima ou para baixo não vai resolver isso. Quando não há nenhuma necessidade real para um hard-and-fast fail to/ rejectdecisão, eu acho que é muito melhor para fazer o julgamento de como uma valiosa de evidência é baseado em muito mais do que a probabilidade da amostra dado o nulo.
Nick Stauner
4
Excelente discussão. Um artigo interessante de alguma relevância é Gelman e Stern. A diferença entre “significativo” e “não significativo” não é estatisticamente significativa (publicada posteriormente no American Statistician, 2006), que eu não diria que caracteriza o valor de p como necessariamente sem sentido, mas injetaria uma forte nota de cautela no que diz respeito a colocar muita ênfase na comparação de valores-p (em vez de estimativas de efeito, digamos). Gelman discutiu questões relacionadas a isso com frequência em seu blog.
Glen_b -Reinstate Monica
2
ppp
2
Parece que Gelman também fornece um link para o pdf do artigo publicado em seu site.
Glen_b -Reinstala Monica
13

Parece-me que, se um valor é significativo, seu valor exato é significativo.

O valor p responde a esta pergunta:

Se, na população da qual essa amostra foi sorteada aleatoriamente, a hipótese nula era verdadeira, qual é a probabilidade de obter uma estatística de teste pelo menos tão extrema quanto a que obtivemos na amostra?

O que dizer dessa definição torna um valor exato sem sentido?

Essa é uma pergunta diferente daquela sobre valores extremos de p. O problema com as declarações que envolvem p com muitos 0s é sobre como podemos estimar p nos extremos. Como não podemos fazer isso muito bem, não faz sentido usar estimativas tão precisas de p. Esta é a mesma razão pela qual não dizemos que p = 0,0319281010012981. Não conhecemos esses últimos dígitos com nenhuma confiança.

Nossas conclusões devem ser diferentes se p <0,001 em vez de p <0,05? Ou, para usar números precisos, nossas conclusões devem ser diferentes se p = 0,00023 em vez de p = 0,035?

Acho que o problema está em como normalmente concluímos as coisas sobre p. Dizemos "significativo" ou "não significativo" com base em algum nível arbitrário. Se usarmos esses níveis arbitrários, então, sim, nossas conclusões serão diferentes. Mas não é assim que deveríamos pensar sobre essas coisas. Deveríamos observar o peso da evidência e os testes estatísticos são apenas parte dessa evidência. Vou (mais uma vez) inserir os "critérios MAGIC" de Robert Abelson:

Magnitude - qual o tamanho do efeito?

Articulação - com que precisão é afirmado? Existem muitas exceções?

Generalidade - a que grupo se aplica?

Interessante - as pessoas vão se importar?

Credibilidade - isso faz sentido?

É a combinação de tudo isso que importa. Observe que Abelson não menciona os valores de p, embora eles venham como uma espécie de híbrido de magnitude e articulação.

Peter Flom - Restabelece Monica
fonte
5
Nós não costumamos dizer isso, mas tecnicamente o valor-p está refletindo algo sobre a "probabilidade de obter uma estatística de teste pelo menos tão extrema quanto a que obtivemos na amostra" se a hipótese nula for verdadeira, nossa estimativa amostral A variação da população é perfeitamente precisa e atendemos a todas as outras suposições de nosso teste. Jogue alguns intervalos de confiança em torno de alguns valores-p via bootstrapping e acho que você verá que frequentemente não estamos tão confiantes quanto aos centésimos.
precisa saber é o seguinte
2
Em resumo, é um contra-fato tão complicado que tentar quantificar um valor-p é contraproducente quando realmente devemos (como você sugere) voltar ao MAGIC.
russellpierce
Devo admitir que não tinha pensado em colocar intervalos de confiança (ou intervalos de credibilidade) em torno dos valores de p. Gostaria de saber quanto foi feito nessa área?
Peter Flom - Restabelece Monica
2
Não tenho uma citação à mão, mas sei que há trabalho nesse sentido - independentemente disso, é uma coisa acadêmica a ser feita, porque você pode fazer intervalos de confiança de seus intervalos de confiança de seus intervalos de confiança quase ad infinitum (há um máximo variação razoavelmente estimada a partir de qualquer conjunto de dados). Eu tive uma conversa bastante longa e detalhada ao longo dessas linhas com @Nick Stauner uma vez. Ele ainda pode ter alguns dos artigos que desenterrou durante a conversa para levar para a mesa.
Russellpierce
1
Nada nos intervalos de confiança para os valores de p que me lembro, mas eu poderia ter passado por essas seções. Eu não estava interessado em fazer intervalos de confiança para p valores quer;)
Nick Stauner