A abundância de valores de P na ausência de uma hipótese

28

Eu estou em epidemiologia. Não sou estatístico, mas tento fazer as análises pessoalmente, embora muitas vezes encontre dificuldades. Fiz minha primeira análise há 2 anos. Os valores de p foram incluídos em todos os lugares nas minhas análises (eu simplesmente fiz o que outros pesquisadores estavam fazendo), desde tabelas descritivas até análises de regressão. Pouco a pouco, os estatísticos que trabalhavam no meu apartamento me convenceram a pular todos (!) Os valores de p, exceto de onde eu realmente tenho uma hipótese.

O problema é que os valores de p são abundantes nas publicações de pesquisas médicas. É convencional incluir valores de p em muitas linhas; dados descritivos de médias, medianas ou o que quer que esteja de acordo com os valores de p (teste t dos alunos, qui-quadrado etc.).

Recentemente, enviei um artigo para um diário e me recusei (educadamente) a adicionar p valores à minha tabela descritiva "linha de base". O jornal foi finalmente rejeitado.

Para exemplificar, veja a figura abaixo; é a tabela descritiva do último artigo publicado em uma respeitada revista de medicina interna .: insira a descrição da imagem aqui

Os estatísticos estão principalmente (se não sempre) envolvidos na revisão desses manuscritos. Portanto, um leigo como eu espera não encontrar nenhum valor de p onde não haja hipótese. Mas eles são abundantes, mas a razão disso permanece ilusória para mim. Acho difícil acreditar que seja ignorância.

Percebo que esta é uma questão estatística limítrofe. Mas estou procurando a lógica por trás desse fenômeno.

Adam Robinsson
fonte
12
Um valor-p sem uma hipótese é inerentemente defeituoso. O que um valor p significa mesmo quando você não tem uma hipótese?
jameselmore
3
Você pode dar alguns exemplos de pessoas que usam valores-p sem nenhuma hipótese? Isto não está claro.
Ameba diz Reinstate Monica
4
@amoeba "" O problema é que os valores de p estão em toda parte em todas as revistas médicas. É convencional incluir valores de p em todas as linhas onde existem médias, medianas ou proporções descritas. "" Eles tendem a ser simples testes exatos de Fisher ou qui-quadrado para diferenças, perguntando se alguma linha de uma tabela de resumo tem uma diferença significativa . A hipótese implícita é que cada linha é importante.
191 Karl
2
Suspeito que uma grande força é que os valores-p dão uma impressão enganosa de finalidade a uma determinada afirmação. Os editores dessas revistas devem amar isso, pois significa que possuem informações valiosas para o futuro próximo. A cultura simultânea de não financiar ou propor estudos de replicação também ajuda a minimizar a presença de resultados conflitantes e controversos. Eu me pergunto o que acontecerá se as pessoas perceberem que as informações que possuem possuem principalmente "atividades sem sentido" (termo de @ glen_b). Mesmo se houver coisas úteis misturadas ... as heurísticas recomendam que você evite.
Livid
11
[at] jameselmore: estou fazendo a mesma pergunta; não faz sentido, mas é aplicado todos os dias. [at] ameba: escolhi aleatoriamente um dos periódicos que li, bati no último artigo publicado e achei o seguinte: onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Karl: exatamente, obrigado. @ Momo: Eu fiz um esforço agora para melhorar a formulação da questão. Penso que esta é uma pergunta importante e agradeço a sua sugestão. [at] Livid: obrigado por este comentário. De fato, muitos pesquisadores podem ter entendido mal todo o ponto dos valores de p.
23615 Adam Robinsson

Respostas:

29

Claramente, não preciso lhe dizer o que é um valor-p, ou por que o excesso de confiança neles é um problema; você aparentemente já entende essas coisas bastante bem.

Com a publicação, você tem duas pressões concorrentes.

A primeira - e uma que você deve buscar a cada oportunidade razoável - é fazer o que faz sentido.

A segunda, em última análise, é a necessidade de realmente publicar. Há pouco ganho se ninguém vê seus bons esforços em reformar práticas terríveis.

Então, ao invés de evitá-lo completamente:

  • faça o mínimo possível de atividades inúteis que você possa se safar e que ainda serão publicadas

  • talvez inclua uma menção a este artigo recente sobre métodos da natureza [1] se você acha que isso vai ajudar, ou talvez melhor uma ou mais das outras referências. Pelo menos deve ajudar a estabelecer que há alguma oposição à primazia dos valores-p.

  • considere outros periódicos, se outro for adequado

É o mesmo em outras disciplinas?

O problema do excesso de uso de valores de p ocorre em um número de disciplinas (isso pode até mesmo ser um problema quando não é uma hipótese), mas é muito menos comum em alguns do que outros. Algumas disciplinas têm problemas com p-value-itis, e os problemas que causam podem eventualmente levar a reações um tanto exageradas [2] (e, em menor grau, [1] e, pelo menos em alguns lugares, alguns outros). também).

Eu acho que há várias razões para isso, mas a dependência excessiva dos valores-p parece adquirir um momento próprio - há algo em dizer "significativo" e rejeitar um nulo que as pessoas parecem achar muito atraentes; várias disciplinas (por exemplo, veja [3] [4] [5] [6] [7] [8] [9] [10] [11]) (com graus variados de sucesso) têm lutado contra o problema da dependência excessiva de valores de p (especialmente = 0,05) por muitos anos e fez muitos tipos diferentes de sugestões - nem todas com as quais concordo, mas incluo uma variedade de visualizações para dar uma idéia das diferentes coisas que as pessoas têm a dizer .α

Alguns deles defendem o foco em intervalos de confiança, outros defendem o tamanho dos efeitos, outros defendem os métodos bayesianos, alguns valores p menores, outros apenas para evitar o uso de valores p de maneiras específicas, e assim por diante. Em vez disso, existem muitas visões diferentes sobre o que fazer, mas entre elas há muito material sobre problemas em confiar em valores-p, pelo menos da maneira como é comumente feito.

Veja essas referências para muitas referências adicionais, por sua vez. Isso é apenas uma amostra - muitas dezenas de outras referências podem ser encontradas. Alguns autores dão razões pelas quais acham que os valores de p são predominantes.

Algumas dessas referências podem ser úteis se você quiser discutir o assunto com um editor.

[1] Halsey LG, Curran-Everett D., Vowler SL e Drummond GB (2015),
"O valor inconstante de P gera resultados irreprodutíveis",
Nature Methods 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / journal / v12 / n3 / abs / nmeth.3288.html

[2] David Trafimow, D. e Marks, M. (2015),
Editorial,
Psicologia Social Básica e Aplicada , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991

[3] Cohen, J. (1990),
Coisas que aprendi (até agora),
American Psychologist , 45 (12), 1304–1312.

[4] Cohen, J. (1994),
A Terra é redonda (p <0,05),
American Psychologist , 49 (12), 997–1003.

[5] Valen E. Johnson (2013),
Padrões revisados ​​para evidência estatística PNAS , vol. 110, n. 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK (2010),
O que acreditar: métodos bayesianos para análise de dados,
Tendências nas ciências cognitivas 14 (7), 293-300

[7] Ioannidis, J. (2005)
Por que a maioria dos resultados de pesquisas publicadas é falsa,
PLoS Med. Agosto; 2 (8): e124.
doi: 10.1371 / journal.pmed.0020124

[8] Gelman, A. (2013), P Valores e prática estatística,
Epidemiology vol. 24 , nº 1, janeiro, 69-72

[9] Gelman, A. (2013),
"O problema dos valores-p é como eles são usados",
(Discussão sobre "Em defesa dos valores-P", de Paul Murtaugh, para Ecology )
http não publicado : // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R. (2014),
Erros estatísticos: os valores de P, o 'padrão ouro' da validade estatística, não são tão confiáveis ​​quanto muitos cientistas supõem,
News and Comment,
Nature , vol. 506 (13), 150-152

[11] Wagenmakers E, (2007)
Uma solução prática para os problemas difundidos dos valores de p,
Psychonomic Bulletin & Review 14 (5), 779-804

Glen_b -Reinstate Monica
fonte
7
+1. Li este artigo da Nature Methods [1] mais uma semana e não tenho certeza se gosto muito. Eles argumentam essencialmente que os valores de p podem ser muito variáveis ​​em testes de baixa potência (veja também "dança dos valores de p" no youtube) - algo que é obviamente verdadeiro e que precisa ser enfatizado. Eles concluem que os valores de p são "ruins" (o título soa bastante duro) e que as pessoas devem usar intervalos de confiança que são "bons". Mas é claro que os intervalos de confiança também são muito variáveis ​​em baixa potência! A situação na Figura 6 (esquerda) não parece muito melhor para mim do que na Figura 2.
ameba diz Reinstate Monica
2
@amoeba Não vou dizer que discordo de você - há muita coisa que eu discordo; no entanto, existem alguns pontos que podem ser úteis para o OP. Na verdade, você me lembrou uma mudança que pretendia fazer, mas esqueci.
Glen_b -Reinstala Monica
3
Sim, eu concordo com a potencial utilidade, no entanto - especialmente porque a Nature Methods é respeitável o suficiente para que as pessoas possam talvez ser convencidas por sua "autoridade". Eu apenas queria avisar o OP contra tomar tudo como garantido (a matemática deles está boa, estou falando de conclusões / interpretações aqui).
Ameba diz Reinstate Monica
11
Também interessante nesse contexto é Wilkinson e a Força-Tarefa sobre Inferência Estatística, Métodos Estatísticos em Revistas de Psicologia, American Psychologist , vol. 54, No. 8, 594-604, 1999.
A. Donda
Glen_b, postei uma pergunta sobre uma das reivindicações mais estranhas no artigo "Fickle P": stats.stackexchange.com/questions/250269 - agradeceria muito sua compreensão.
Ameba diz Reinstate Monica
10

O valor-p, ou mais geralmente, teste de significância de hipótese nula (NHST), está mantendo lentamente cada vez menos valor. Tanto é assim que começou a ser banido em revistas.

A maioria das pessoas não entende o que o valor-p realmente nos diz e por que isso nos diz isso, mesmo que seja usado em qualquer lugar.

P(Dados|H0 0)P(H0 0|Dados)

H0H0

stoched
fonte
11
Eu acrescentaria que P (H0 | dados) só é significativo se H0 for significativo. Os estudos precisam ser projetados e relatados de forma a descartar outras explicações desinteressantes para os resultados (viés, desistências, diferenças de linha de base) além do acaso. Além disso, mesmo um RCT cego perfeito com tamanho de efeito substancial apenas informa que algo interessante foi medido. Descobrir se você mediu o que realmente está preocupado é outra questão encoberta, frequentemente encontrada junto com a obsessão pelo valor-p.
Livid
8

É o mesmo em outras disciplinas? Qual o motivo da obsessão pelos valores de p?

Greenwald et al. (1996) tentam lidar com essa questão em relação à psicologia. Quanto à aplicação do NHST também às diferenças da linha de base, presumivelmente os editores decidirão (com ou sem razão) que as diferenças da linha de base "não significativas" não podem explicar os resultados, enquanto que as "significativas" podem explicar os resultados. Isso é semelhante ao "Motivo 1" oferecido por Greenwald et al. :

Por que o NHT continua popular?

"Por que a NHT não sucumbe às críticas? Por falta de uma resposta melhor, é tentador creditar a persistência da NHT à falta de caráter dos cientistas comportamentais. A falta de disposição dos cientistas comportamentais em renunciar ao prazer culpado de obter rejeições de hipóteses nulas possivelmente espúrias pode seja como a relutância de um bebedor em renunciar ao hábito de um coquetel antes do jantar ... "

Razão I: HT fornece um resultado dicotômico

"Devido à ampla adoção da convenção que p <0,05 se traduz em" estatisticamente significante ", o NHT pode ser usado para produzir uma resposta dicotômica (rejeitar ou não rejeitar) a uma pergunta sobre uma hipótese nula. Isso pode ser frequentemente considerado como uma resposta útil para questões teóricas que são declaradas em termos de uma direção de previsão e não em termos do valor esperado de um parâmetro ... "

Razão 2: Valor de p como uma tradução significativa no idioma comum para estatísticas de teste

"Diferente de qualquer coisa que possa ser percebida tão diretamente dos valores t, F ou r (com o df associado), a medida de surpresa de um valor é simplesmente capturada pelo número de zeros consecutivos à direita do seu ponto decimal ..."

Razão 3: o valor p fornece uma medida de confiança "na replicabilidade de rejeições de hipóteses nulas

"[Como] um tamanho de efeito (ou um intervalo de confiança), um valor ap resultante do NHT é monotonicamente relacionado a uma estimativa da replicabilidade de uma descoberta não nula. Nesta declaração, a replicabilidade (que é definida mais formalmente logo abaixo) se destina apenas no sentido do NHT de repetir a conclusão rejeitar-não-rejeitar e não no seu senso de proximidade de estimativa entre estimativas pontuais ou de intervalo. "

Tamanhos de efeito ep valores: O que deve ser relatado e o que deve ser replicado? ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS E DONALD GUTHRIE. Psychophysiology, 33 (1996). 175-183. Cambridge University Press. Impresso nos EUA. Copyright O 1996 Sociedade de Pesquisa Psicofisiológica

Lívido
fonte
obrigado por esses comentários importantes, que definitivamente vou usar para discutir com os revisores da próxima vez.
Adam Robinsson
6

Os valores P fornecem informações sobre as diferenças entre dois grupos de resultados ("tratamento" vs "controle", "A" vs "B" etc.) que são amostrados em duas populações. A natureza da diferença é formalizada na declaração de hipóteses - por exemplo, "a média de A é maior que a média de B". Valores baixos de p sugerem que as diferenças não se devem a variações aleatórias, enquanto valores altos de p sugerem que as diferenças nas duas amostras não podem ser distinguidas das diferenças que podem surgir simplesmente da variação aleatória. O que é "baixo" ou "alto" para um valor-p tem sido historicamente uma questão de convenção e bom gosto, e não estabelecido por lógica rigorosa ou análise de evidências.

Um pré-requisito para o uso de valores-p é que os dois grupos de resultados sejam realmente comparáveis, ou seja, que a única fonte de diferença entre eles esteja relacionada à variável que você está avaliando. Como exemplo exagerado, imagine que você tenha estatísticas de duas doenças em dois períodos de tempo - A: mortalidade por cólera entre homens nas prisões britânicas 1920-1930 e B: infecção por malária na Nigéria 1960-1970. Computar um valor-p desses dois conjuntos de dados seria um tanto absurdo. Agora, se A: mortalidade por cólera entre homens nas prisões britânicas que não são tratadas vs. B: mortalidade por cólera entre homens em prisões britânicas tratadas com reidratação, você tem a base para uma hipótese estatística sólida.

Na maioria das vezes, isso é realizado por meio de um experimento cuidadoso, de um levantamento cuidadoso ou de uma coleta cuidadosa de dados históricos, etc. Além disso, as diferenças entre os dois resultados devem ser formalizadas em declarações de hipóteses que envolvem estatísticas amostrais - geralmente amostra significa, mas variações de amostra ou outras estatísticas de amostra. Também é possível criar declarações de hipóteses comparando as duas distribuições de amostra como um todo, usando dominância estocástica. Estes são raros.

A controvérsia sobre os valores-p concentra-se em "o que é realmente significativo" para a pesquisa? É aqui que os tamanhos dos efeitos entram. Basicamente, o tamanho do efeito é a magnitude da diferença entre os dois grupos. É possível ter alta significância estatística (baixo valor de p -> não devido a variação aleatória), mas também baixo tamanho de efeito (pouca diferença de magnitude). Quando os tamanhos dos efeitos são muito grandes, permitir valores de p um pouco altos pode ser bom.

A maioria das disciplinas agora está se movendo muito fortemente em direção ao tamanho dos efeitos de relatório e reduzindo ou minimizando o papel dos valores-p. Eles também incentivam estatísticas mais descritivas sobre as distribuições de amostra. Algumas abordagens, incluindo a estatística bayesiana, eliminam todos os valores de p.


Minha resposta é condensada e simplificada. Existem muitos artigos sobre esse tópico que você pode consultar para obter mais detalhes, justificativas e detalhes, incluindo estes:

MrMeritology
fonte
@MerMeritology obrigado por fornecer essas importantes referências. Vou lê-los o mais rápido possível!
Adam Robinsson
6

"Portanto, um leigo como eu espera não encontrar nenhum valor de p onde não haja hipótese".

Implicitamente, o OP diz que, na Tabela específica que ele apresenta, não existem hipóteses que acompanhem os valores de p relatados. Apenas para esclarecer essa pequena confusão, certamente existem hipóteses nulas, mas elas são ... indiretamente mencionadas (para economia de espaço, eu presumo).

O "valor-p" é uma probabilidade condicional, digamos, para um teste de "cauda direita",

p-valP(Tt(S)H0)=1FT|H0(t(S)H0)

TFT|H0(tH0)TH0t(S)TTH0 0TH0 0H0 0

Portanto, um valor-p nem sequer pode ser calculado se não houver hipótese nula , e sempre que vemos um valor-p relatado, em algum lugar existe uma hipótese nula.

Na tabela apresentada na pergunta, lemos

"Todos os testes para diferenças entre os tercis de RCQ ..."

A hipótese nula está "oculta" nesta frase: "Não há diferença entre os tercis de RCQ" (seja qual for um "tercílio de WΗR") expressa em sua forma matemática, que aqui parece ser a diferença entre duas magnitudes definidas como zero.

Alecos Papadopoulos
fonte
Concordo que poderia haver hipóteses por trás dessas análises. No entanto, aqueles que elaboram diretrizes para trabalhos de pesquisa (por exemplo, declaração STROBE) devem abordar a abundância de valores de p. Eu acho que um valor de p deve ser reservado para a hipótese principal de um artigo (que raramente é mais que um). Mas, no entanto, não posso dizer que eu discordo de você =)
Adam Robinsson
11
@AdamRobinsson Hmmm ... Não tenho tanta certeza. Tal abordagem "reservada" inflaria (ainda mais) a importância que um teste de valor-p realmente tem para se chegar a uma conclusão. Para mim, é apenas mais um resultado que precisa ser combinado com muitos outros aspectos, resultados, informações fora da amostra, lógica etc. Por outro lado, se os valores de p estão espalhados por todo o lugar, é mais fácil perceber que eles não são o critério definido para chegar a conclusões.
Alecos Papadopoulos 22/03
Além disso, li algo diferente na tabela, que se refere aos tercis da RCQ (ou seja, da cintura para o quadril) em vez do WRT, enquanto os tercis são valores que dividem uma distribuição em 3 partes, no mesmo sentido em que os quartis são valores que se dividem em 4 partes e deciles são para dez partes.
Glen_b -Reinstala Monica
@Glen_b Obrigado, isso foi apenas um erro de digitação da minha parte. Corrigido.
Alecos Papadopoulos
2
Veja, por exemplo, aqui . Mas provavelmente não aqui .
Glen_b -Reinstala Monica
2

Fiquei curioso e li o artigo que o OP deu como exemplo: A obesidade abdominal aumenta o risco de fratura de quadril . Não sou pesquisador médico e normalmente não leio artigos de medicina.

Fiquei surpreso ao ver que o ÚNICO lugar onde este documento usa p-values ​​é a legenda da Tabela 1 que OP reproduziu no corpo da pergunta.

Para mim, isso não parece uma "abundância" de p-valores em tudo! Estou acostumado a trabalhos de neurociência, onde diferentes grupos de sujeitos (humanos, camundongos, moscas, neurônios, amostras de tecidos etc.) são tratados ou medidos de maneira diferente em diferentes condições, e os trabalhos geralmente giram em torno das diferenças entre os grupos. Essas diferenças são sempre avaliadas comp-valores, para que um artigo possa ter dezenas e dezenas delas relatadas no texto principal. Às vezes, isso realmente parece "uma abundância". Essa abordagem é frequentemente criticada por vezes (às vezes com razão e com razão) por várias razões; veja uma resposta de @Glen_b (+1) e outros links.

No entanto, este documento não faz nada disso e apenas relata p- valores basicamente na introdução, quando são relatadas características diferentes da coorte. Eu não entendo o quepvalores estão fazendo lá, e então sim, eu concordo que eles estão fora do lugar. No entanto, também não entendo o que essa tabela inteira está fazendo lá! Acho essa tabela um pouco confusa (por que tercis? Por que tercis da RCQ? Onde está a variável real de interesse, a taxa de fratura do quadril?) E não parece ser usada para nenhuma análise real mais adiante. Esta tabela inteira pode ser expulsa do texto sem muita perda, juntamente com op-valores.

Como não vejo abundância de p- valores neste artigo, estou um pouco confuso com a pergunta.

Parece que a pergunta está se referindo especificamente a essas tabelas descritivas. Nesse caso, essa é uma prática estranha (mas principalmente inofensiva?) Em revistas médicas, sobrevivendo devido à tradição.


PS A propósito, a principal análise deste trabalho (que não envolve nenhumap-valores) parece estranho para mim. O objetivo do estudo é "examinar a [...] relação entre circunferência da cintura (CC), circunferência do quadril (CC), relação cintura / quadril (RCQ) e IMC com fratura incidente de quadril" , enquanto controla várias possíveis covariáveis . O tamanho da amostra é enorme (n=43000) O que eu faria é colocar todos os preditores em um modelo de regressão com uma penalidade líquida elástica, selecionar os parâmetros de regularização via validação cruzada e, em seguida, analisar quais preditores têm coeficientes diferentes de zero. Ou algo parecido. Os autores, em vez disso, fazem algumas modelagens ad hoc .

ameba diz Restabelecer Monica
fonte
@amoeba Selecionei um artigo no rando; foi o último artigo publicado em epidemiologia naquela revista. Tenho certeza de que, se eu tivesse pesquisado um pouco mais, poderia fornecer um artigo com muitos outros valores p inúteis. Como você notou, existe um valor-p, mas, com base nas suas e nas outras respostas acima e abaixo, parece que a comunidade de pesquisadores está abordando isso.
Adam Robinsson
@ Adam, eu gosto da sua pergunta (+1) e da resposta de Glen_b (+1), mas se este artigo "selecionado aleatoriamente" é representativo, a maioria dos pontos que Glen_b fez e a maioria dos artigos aos quais ele vinculou não se aplicam ou se referem a a situação na pesquisa médica sobre a qual você estava perguntando. Se não é representativo, é claro que não posso julgar.
Ameba diz Reinstate Monica
De fato, recebi imensa ajuda de suas respostas várias vezes. Eu fiz o julgamento com base na minha compreensão deste problema. Acredito que todas as respostas fornecidas são úteis e respondem coletivamente à pergunta.
Adam Robinsson
1

O nível de revisão pelos pares estatísticos não é tão alto quanto se poderia pensar da minha experiência. Para todos os trabalhos aplicados em que trabalhei, todos os comentários estatísticos vieram de especialistas na área aplicada e não de estatísticos. Para os periódicos "principais", embora exista um maior escrutínio, não é incomum ver resultados com falhas graves. Eu acho que isso ocorre em parte porque o campo da estatística pode ser difícil (como pode ser visto pelas divergências entre muitas de suas grandes mentes).

Segundo, os leitores de um campo esperam ver as coisas de uma certa maneira. Em uma experiência recente, plotei probabilidades a partir de um modelo, mas isso foi abatido porque meu colaborador adivinhou corretamente que seus leitores ficariam mais confortáveis ​​com um gráfico de barras de dados brutos. Em suma, muitos leitores esperam ver valores-p ao lado de uma tabela de características da linha de base.

Não relacionados à sua pergunta direta, mas talvez relevantes: os valores de p são usados ​​em quase todos os textos usando métodos freqüentes ou de probabilidade. Os autores muitas vezes fizeram tremendas contribuições e pensaram profundamente em estatística. Embora abusados ​​por experimentalistas, certamente eles têm um lugar nas estatísticas.

julieth
fonte
Obrigado por este comentário. Eu poderia levar sua declaração ainda mais longe; Eu acho que uma proporção inacreditavelmente grande de descobertas publicadas contém falhas estatísticas por várias razões. Meu supervisor costuma dizer que "o processo de revisão é baseado na palavra de um cavalheiro" Acho engraçado.
Adam Robinsson 21/03
1

Tenho que ler artigos médicos com frequência e sinto que o pêndulo parece estar oscilando de um extremo a outro, em vez de ficar na zona central equilibrada.

A abordagem a seguir parece funcionar bem. Se o valor de P for pequeno, é improvável que a diferença observada seja apenas por acaso. Devemos, portanto, examinar a magnitude da diferença e decidir se ela tem algum significado prático. Valores muito pequenos de P ocorrem com amostras grandes, mesmo com diferenças muito pequenas que podem não ter relevância prática.

Não incluir valores de P na tabela de dados da linha de base pode ser desvantajoso. Portanto, se em um estudo houver dois grupos com idades médias de 54 e 59 anos, quero saber se essa diferença pode ocorrer apenas por acaso. Se P for pequeno, acho que essa diferença de 5 anos em 2 grupos pode afetar os resultados do estudo. Se P não for pequeno, não preciso responder a essa pergunta.

O problema ocorre se alguém confiar apenas no valor P e não verificar a magnitude da diferença (por exemplo, alteração percentual simples). Alguns acham que os valores de P devem ser totalmente omitidos, para que apenas a diferença permaneça e seja vista. Uma solução equilibrada seria enfatizar a avaliação de ambos e não apenas jogar fora o valor de P, que tem um significado limitado, mas "significativo". Também é provável que o tamanho do efeito se correlacione intimamente com o valor de P (assim como os intervalos de confiança) e também é improvável que desloque completamente os valores de P do cenário estatístico. Conforme mencionado no artigo a seguir, existem muitas virtudes do teste de hipóteses nulas, pelas quais continua popular:

ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS E DONALD GUTHRIE Tamanhos de efeitos ep valores: O que deve ser relatado e o que deve ser replicado? Psychophysiology, 33 (1996). 175-183.

rnso
fonte