Eu estou em epidemiologia. Não sou estatístico, mas tento fazer as análises pessoalmente, embora muitas vezes encontre dificuldades. Fiz minha primeira análise há 2 anos. Os valores de p foram incluídos em todos os lugares nas minhas análises (eu simplesmente fiz o que outros pesquisadores estavam fazendo), desde tabelas descritivas até análises de regressão. Pouco a pouco, os estatísticos que trabalhavam no meu apartamento me convenceram a pular todos (!) Os valores de p, exceto de onde eu realmente tenho uma hipótese.
O problema é que os valores de p são abundantes nas publicações de pesquisas médicas. É convencional incluir valores de p em muitas linhas; dados descritivos de médias, medianas ou o que quer que esteja de acordo com os valores de p (teste t dos alunos, qui-quadrado etc.).
Recentemente, enviei um artigo para um diário e me recusei (educadamente) a adicionar p valores à minha tabela descritiva "linha de base". O jornal foi finalmente rejeitado.
Para exemplificar, veja a figura abaixo; é a tabela descritiva do último artigo publicado em uma respeitada revista de medicina interna .:
Os estatísticos estão principalmente (se não sempre) envolvidos na revisão desses manuscritos. Portanto, um leigo como eu espera não encontrar nenhum valor de p onde não haja hipótese. Mas eles são abundantes, mas a razão disso permanece ilusória para mim. Acho difícil acreditar que seja ignorância.
Percebo que esta é uma questão estatística limítrofe. Mas estou procurando a lógica por trás desse fenômeno.
fonte
Respostas:
Claramente, não preciso lhe dizer o que é um valor-p, ou por que o excesso de confiança neles é um problema; você aparentemente já entende essas coisas bastante bem.
Com a publicação, você tem duas pressões concorrentes.
A primeira - e uma que você deve buscar a cada oportunidade razoável - é fazer o que faz sentido.
A segunda, em última análise, é a necessidade de realmente publicar. Há pouco ganho se ninguém vê seus bons esforços em reformar práticas terríveis.
Então, ao invés de evitá-lo completamente:
faça o mínimo possível de atividades inúteis que você possa se safar e que ainda serão publicadas
talvez inclua uma menção a este artigo recente sobre métodos da natureza [1] se você acha que isso vai ajudar, ou talvez melhor uma ou mais das outras referências. Pelo menos deve ajudar a estabelecer que há alguma oposição à primazia dos valores-p.
considere outros periódicos, se outro for adequado
O problema do excesso de uso de valores de p ocorre em um número de disciplinas (isso pode até mesmo ser um problema quando não é uma hipótese), mas é muito menos comum em alguns do que outros. Algumas disciplinas têm problemas com p-value-itis, e os problemas que causam podem eventualmente levar a reações um tanto exageradas [2] (e, em menor grau, [1] e, pelo menos em alguns lugares, alguns outros). também).
Eu acho que há várias razões para isso, mas a dependência excessiva dos valores-p parece adquirir um momento próprio - há algo em dizer "significativo" e rejeitar um nulo que as pessoas parecem achar muito atraentes; várias disciplinas (por exemplo, veja [3] [4] [5] [6] [7] [8] [9] [10] [11]) (com graus variados de sucesso) têm lutado contra o problema da dependência excessiva de valores de p (especialmente = 0,05) por muitos anos e fez muitos tipos diferentes de sugestões - nem todas com as quais concordo, mas incluo uma variedade de visualizações para dar uma idéia das diferentes coisas que as pessoas têm a dizer .α
Alguns deles defendem o foco em intervalos de confiança, outros defendem o tamanho dos efeitos, outros defendem os métodos bayesianos, alguns valores p menores, outros apenas para evitar o uso de valores p de maneiras específicas, e assim por diante. Em vez disso, existem muitas visões diferentes sobre o que fazer, mas entre elas há muito material sobre problemas em confiar em valores-p, pelo menos da maneira como é comumente feito.
Veja essas referências para muitas referências adicionais, por sua vez. Isso é apenas uma amostra - muitas dezenas de outras referências podem ser encontradas. Alguns autores dão razões pelas quais acham que os valores de p são predominantes.
Algumas dessas referências podem ser úteis se você quiser discutir o assunto com um editor.
[1] Halsey LG, Curran-Everett D., Vowler SL e Drummond GB (2015),
"O valor inconstante de P gera resultados irreprodutíveis",
Nature Methods 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / journal / v12 / n3 / abs / nmeth.3288.html
[2] David Trafimow, D. e Marks, M. (2015),
Editorial,
Psicologia Social Básica e Aplicada , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991
[3] Cohen, J. (1990),
Coisas que aprendi (até agora),
American Psychologist , 45 (12), 1304–1312.
[4] Cohen, J. (1994),
A Terra é redonda (p <0,05),
American Psychologist , 49 (12), 997–1003.
[5] Valen E. Johnson (2013),
Padrões revisados para evidência estatística PNAS , vol. 110, n. 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf
[6] Kruschke JK (2010),
O que acreditar: métodos bayesianos para análise de dados,
Tendências nas ciências cognitivas 14 (7), 293-300
[7] Ioannidis, J. (2005)
Por que a maioria dos resultados de pesquisas publicadas é falsa,
PLoS Med. Agosto; 2 (8): e124.
doi: 10.1371 / journal.pmed.0020124
[8] Gelman, A. (2013), P Valores e prática estatística,
Epidemiology vol. 24 , nº 1, janeiro, 69-72
[9] Gelman, A. (2013),
"O problema dos valores-p é como eles são usados",
(Discussão sobre "Em defesa dos valores-P", de Paul Murtaugh, para Ecology )
http não publicado : // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf
[10] Nuzzo R. (2014),
Erros estatísticos: os valores de P, o 'padrão ouro' da validade estatística, não são tão confiáveis quanto muitos cientistas supõem,
News and Comment,
Nature , vol. 506 (13), 150-152
[11] Wagenmakers E, (2007)
Uma solução prática para os problemas difundidos dos valores de p,
Psychonomic Bulletin & Review 14 (5), 779-804
fonte
O valor-p, ou mais geralmente, teste de significância de hipótese nula (NHST), está mantendo lentamente cada vez menos valor. Tanto é assim que começou a ser banido em revistas.
A maioria das pessoas não entende o que o valor-p realmente nos diz e por que isso nos diz isso, mesmo que seja usado em qualquer lugar.
fonte
Greenwald et al. (1996) tentam lidar com essa questão em relação à psicologia. Quanto à aplicação do NHST também às diferenças da linha de base, presumivelmente os editores decidirão (com ou sem razão) que as diferenças da linha de base "não significativas" não podem explicar os resultados, enquanto que as "significativas" podem explicar os resultados. Isso é semelhante ao "Motivo 1" oferecido por Greenwald et al. :
Tamanhos de efeito ep valores: O que deve ser relatado e o que deve ser replicado? ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS E DONALD GUTHRIE. Psychophysiology, 33 (1996). 175-183. Cambridge University Press. Impresso nos EUA. Copyright O 1996 Sociedade de Pesquisa Psicofisiológica
fonte
Os valores P fornecem informações sobre as diferenças entre dois grupos de resultados ("tratamento" vs "controle", "A" vs "B" etc.) que são amostrados em duas populações. A natureza da diferença é formalizada na declaração de hipóteses - por exemplo, "a média de A é maior que a média de B". Valores baixos de p sugerem que as diferenças não se devem a variações aleatórias, enquanto valores altos de p sugerem que as diferenças nas duas amostras não podem ser distinguidas das diferenças que podem surgir simplesmente da variação aleatória. O que é "baixo" ou "alto" para um valor-p tem sido historicamente uma questão de convenção e bom gosto, e não estabelecido por lógica rigorosa ou análise de evidências.
Um pré-requisito para o uso de valores-p é que os dois grupos de resultados sejam realmente comparáveis, ou seja, que a única fonte de diferença entre eles esteja relacionada à variável que você está avaliando. Como exemplo exagerado, imagine que você tenha estatísticas de duas doenças em dois períodos de tempo - A: mortalidade por cólera entre homens nas prisões britânicas 1920-1930 e B: infecção por malária na Nigéria 1960-1970. Computar um valor-p desses dois conjuntos de dados seria um tanto absurdo. Agora, se A: mortalidade por cólera entre homens nas prisões britânicas que não são tratadas vs. B: mortalidade por cólera entre homens em prisões britânicas tratadas com reidratação, você tem a base para uma hipótese estatística sólida.
Na maioria das vezes, isso é realizado por meio de um experimento cuidadoso, de um levantamento cuidadoso ou de uma coleta cuidadosa de dados históricos, etc. Além disso, as diferenças entre os dois resultados devem ser formalizadas em declarações de hipóteses que envolvem estatísticas amostrais - geralmente amostra significa, mas variações de amostra ou outras estatísticas de amostra. Também é possível criar declarações de hipóteses comparando as duas distribuições de amostra como um todo, usando dominância estocástica. Estes são raros.
A controvérsia sobre os valores-p concentra-se em "o que é realmente significativo" para a pesquisa? É aqui que os tamanhos dos efeitos entram. Basicamente, o tamanho do efeito é a magnitude da diferença entre os dois grupos. É possível ter alta significância estatística (baixo valor de p -> não devido a variação aleatória), mas também baixo tamanho de efeito (pouca diferença de magnitude). Quando os tamanhos dos efeitos são muito grandes, permitir valores de p um pouco altos pode ser bom.
A maioria das disciplinas agora está se movendo muito fortemente em direção ao tamanho dos efeitos de relatório e reduzindo ou minimizando o papel dos valores-p. Eles também incentivam estatísticas mais descritivas sobre as distribuições de amostra. Algumas abordagens, incluindo a estatística bayesiana, eliminam todos os valores de p.
Minha resposta é condensada e simplificada. Existem muitos artigos sobre esse tópico que você pode consultar para obter mais detalhes, justificativas e detalhes, incluindo estes:
fonte
Implicitamente, o OP diz que, na Tabela específica que ele apresenta, não existem hipóteses que acompanhem os valores de p relatados. Apenas para esclarecer essa pequena confusão, certamente existem hipóteses nulas, mas elas são ... indiretamente mencionadas (para economia de espaço, eu presumo).
O "valor-p" é uma probabilidade condicional, digamos, para um teste de "cauda direita",
Portanto, um valor-p nem sequer pode ser calculado se não houver hipótese nula , e sempre que vemos um valor-p relatado, em algum lugar existe uma hipótese nula.
Na tabela apresentada na pergunta, lemos
A hipótese nula está "oculta" nesta frase: "Não há diferença entre os tercis de RCQ" (seja qual for um "tercílio de WΗR") expressa em sua forma matemática, que aqui parece ser a diferença entre duas magnitudes definidas como zero.
fonte
Fiquei curioso e li o artigo que o OP deu como exemplo: A obesidade abdominal aumenta o risco de fratura de quadril . Não sou pesquisador médico e normalmente não leio artigos de medicina.
Fiquei surpreso ao ver que o ÚNICO lugar onde este documento usap -values é a legenda da Tabela 1 que OP reproduziu no corpo da pergunta.
Para mim, isso não parece uma "abundância" dep -valores em tudo! Estou acostumado a trabalhos de neurociência, onde diferentes grupos de sujeitos (humanos, camundongos, moscas, neurônios, amostras de tecidos etc.) são tratados ou medidos de maneira diferente em diferentes condições, e os trabalhos geralmente giram em torno das diferenças entre os grupos. Essas diferenças são sempre avaliadas comp -valores, para que um artigo possa ter dezenas e dezenas delas relatadas no texto principal. Às vezes, isso realmente parece "uma abundância". Essa abordagem é frequentemente criticada por vezes (às vezes com razão e com razão) por várias razões; veja uma resposta de @Glen_b (+1) e outros links.
No entanto, este documento não faz nada disso e apenas relatap - valores basicamente na introdução, quando são relatadas características diferentes da coorte. Eu não entendo o quep valores estão fazendo lá, e então sim, eu concordo que eles estão fora do lugar. No entanto, também não entendo o que essa tabela inteira está fazendo lá! Acho essa tabela um pouco confusa (por que tercis? Por que tercis da RCQ? Onde está a variável real de interesse, a taxa de fratura do quadril?) E não parece ser usada para nenhuma análise real mais adiante. Esta tabela inteira pode ser expulsa do texto sem muita perda, juntamente com op -valores.
Como não vejo abundância dep - valores neste artigo, estou um pouco confuso com a pergunta.
Parece que a pergunta está se referindo especificamente a essas tabelas descritivas. Nesse caso, essa é uma prática estranha (mas principalmente inofensiva?) Em revistas médicas, sobrevivendo devido à tradição.
PS A propósito, a principal análise deste trabalho (que não envolve nenhumap -valores) parece estranho para mim. O objetivo do estudo é "examinar a [...] relação entre circunferência da cintura (CC), circunferência do quadril (CC), relação cintura / quadril (RCQ) e IMC com fratura incidente de quadril" , enquanto controla várias possíveis covariáveis . O tamanho da amostra é enorme (n = 43000 ) O que eu faria é colocar todos os preditores em um modelo de regressão com uma penalidade líquida elástica, selecionar os parâmetros de regularização via validação cruzada e, em seguida, analisar quais preditores têm coeficientes diferentes de zero. Ou algo parecido. Os autores, em vez disso, fazem algumas modelagens ad hoc .
fonte
O nível de revisão pelos pares estatísticos não é tão alto quanto se poderia pensar da minha experiência. Para todos os trabalhos aplicados em que trabalhei, todos os comentários estatísticos vieram de especialistas na área aplicada e não de estatísticos. Para os periódicos "principais", embora exista um maior escrutínio, não é incomum ver resultados com falhas graves. Eu acho que isso ocorre em parte porque o campo da estatística pode ser difícil (como pode ser visto pelas divergências entre muitas de suas grandes mentes).
Segundo, os leitores de um campo esperam ver as coisas de uma certa maneira. Em uma experiência recente, plotei probabilidades a partir de um modelo, mas isso foi abatido porque meu colaborador adivinhou corretamente que seus leitores ficariam mais confortáveis com um gráfico de barras de dados brutos. Em suma, muitos leitores esperam ver valores-p ao lado de uma tabela de características da linha de base.
Não relacionados à sua pergunta direta, mas talvez relevantes: os valores de p são usados em quase todos os textos usando métodos freqüentes ou de probabilidade. Os autores muitas vezes fizeram tremendas contribuições e pensaram profundamente em estatística. Embora abusados por experimentalistas, certamente eles têm um lugar nas estatísticas.
fonte
Tenho que ler artigos médicos com frequência e sinto que o pêndulo parece estar oscilando de um extremo a outro, em vez de ficar na zona central equilibrada.
A abordagem a seguir parece funcionar bem. Se o valor de P for pequeno, é improvável que a diferença observada seja apenas por acaso. Devemos, portanto, examinar a magnitude da diferença e decidir se ela tem algum significado prático. Valores muito pequenos de P ocorrem com amostras grandes, mesmo com diferenças muito pequenas que podem não ter relevância prática.
Não incluir valores de P na tabela de dados da linha de base pode ser desvantajoso. Portanto, se em um estudo houver dois grupos com idades médias de 54 e 59 anos, quero saber se essa diferença pode ocorrer apenas por acaso. Se P for pequeno, acho que essa diferença de 5 anos em 2 grupos pode afetar os resultados do estudo. Se P não for pequeno, não preciso responder a essa pergunta.
O problema ocorre se alguém confiar apenas no valor P e não verificar a magnitude da diferença (por exemplo, alteração percentual simples). Alguns acham que os valores de P devem ser totalmente omitidos, para que apenas a diferença permaneça e seja vista. Uma solução equilibrada seria enfatizar a avaliação de ambos e não apenas jogar fora o valor de P, que tem um significado limitado, mas "significativo". Também é provável que o tamanho do efeito se correlacione intimamente com o valor de P (assim como os intervalos de confiança) e também é improvável que desloque completamente os valores de P do cenário estatístico. Conforme mencionado no artigo a seguir, existem muitas virtudes do teste de hipóteses nulas, pelas quais continua popular:
ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS E DONALD GUTHRIE Tamanhos de efeitos ep valores: O que deve ser relatado e o que deve ser replicado? Psychophysiology, 33 (1996). 175-183.
fonte