Os tamanhos dos efeitos são realmente superiores aos valores-p?

14

Muita ênfase é colocada em confiar e relatar tamanhos de efeito em vez de valores-p na pesquisa aplicada (por exemplo, citações mais abaixo).

Mas não é o caso que um tamanho de efeito como um valor-p seja uma variável aleatória e, como tal, possa variar de amostra para amostra quando o mesmo experimento é repetido? Em outras palavras, estou perguntando quais recursos estatísticos (por exemplo, o tamanho do efeito é menos variável de amostra para amostra que o valor-p) tornam os tamanhos de efeito melhores índices de medição de evidências do que os valores-p.

No entanto, devo mencionar um fato importante que separa um valor p de um tamanho de efeito. Ou seja, um tamanho de efeito é algo a ser estimado porque possui um parâmetro de população, mas um valor p não é nada para ser estimado porque não possui nenhum parâmetro de população.

Para mim, o tamanho do efeito é simplesmente uma métrica que, em certas áreas da pesquisa (por exemplo, pesquisa em humanos), ajuda a transformar descobertas empíricas provenientes de várias ferramentas de medição desenvolvidas por pesquisadores em uma métrica comum (é justo dizer que usar essa pesquisa em métrica humana pode se encaixar melhor o clube de pesquisa quantitativa).

Talvez se tomarmos uma proporção simples como tamanho de efeito, o seguinte (em R) é o que mostra a supremacia dos tamanhos de efeito sobre os valores-p? (o valor p muda, mas o tamanho do efeito não)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

Observe que a maioria dos tamanhos de efeito está linearmente relacionada a uma estatística de teste. Portanto, é um passo fácil realizar testes de hipótese nula usando tamanhos de efeito.

Por exemplo, a estatística t resultante de um design pré-pós pode ser facilmente convertida no tamanho de efeito d de Cohen correspondente. Como tal, a distribuição de d de Cohen é simplesmente a versão em escala de localização na distribuição.

As citações:

Como os valores de p são índices confusos, em teoria, 100 estudos com tamanhos de amostra variados e 100 tamanhos de efeito diferentes podem ter o mesmo valor de p, e 100 estudos com o mesmo tamanho de efeito podem ter 100 valores diferentes para o valor de p .

ou

O valor p é uma variável aleatória que varia de amostra para amostra. . . . Consequentemente, não é apropriado comparar os valores de p de dois experimentos distintos, ou de testes em duas variáveis ​​medidas no mesmo experimento, e declarar que um é mais significativo que o outro?

Citações:

Thompson, B. (2006). Fundamentos da estatística comportamental: uma abordagem baseada em insight. Nova York, NY: Guilford Press.

Good, PI, & Hardin, JW (2003). Erros comuns nas estatísticas (e como evitá-los). Nova York: Wiley.

rnorouzian
fonte
12
Não tirei as mesmas conclusões das citações (que os tamanhos de efeito são "superiores" ou devem ser relatados em vez de valores-p). Estou ciente de que algumas pessoas reagiram exageradamente ao fazer declarações como essa (como a proibição do BASP de valores-p). Não é uma situação de um ou outro: é um caso de apontar que valores de p e tamanhos de efeito fornecem diferentes tipos de informações úteis. Normalmente, um não deve ser examinado sem considerá-lo no contexto do outro.
whuber
1
Pessoalmente, acho que relatar uma estimativa e um intervalo de confiança é suficiente. Ele fornece o tamanho do efeito (significância prática) e teste de hipótese (significância estatística) ao mesmo tempo.
Jirapat Samranvedhya
1
Se os valores de p ou tamanhos de efeito são 'superiores' depende da sua perspectiva. O primeiro segue a tradição NHST dos pescadores, enquanto o segundo a tradição Neyman-Pearson. Em alguns campos (ciências biológicas, humanidades), os tamanhos dos efeitos tendem a ser muito pequenos, tornando os valores de p atraentes. Por outro lado, como outros observam, p-valores podem ser 'forçado' menor através de mudanças no design, como aumento N.
HEITZ
3
Uma chave de fenda é superior a um martelo?
Kjetil b halvorsen
Uma porca é superior a um parafuso?
Sextus Empiricus

Respostas:

21

O conselho para fornecer tamanhos de efeito em vez de valores P baseia-se em uma dicotomia falsa e é tolo. Por que não apresentar os dois?

As conclusões científicas devem ser baseadas em uma avaliação racional das evidências e da teoria disponíveis. Valores P e tamanhos de efeitos observados sozinhos ou juntos não são suficientes.

Nenhuma das passagens citadas que você fornece é útil. É claro que os valores de P variam de experimento para experimento, a força da evidência nos dados varia de experimento para experimento. O valor P é apenas uma extração numérica dessa evidência por meio do modelo estatístico. Dada a natureza do valor P, raramente é relevante para fins analíticos comparar um valor P com outro, então talvez seja isso que o autor da cotação está tentando transmitir.

Se você deseja comparar valores-P, provavelmente deveria ter realizado um teste de significância em um arranjo diferente dos dados, a fim de responder sensatamente à questão de interesse. Veja estas perguntas: valores-p para valores-p? e Se a média de um grupo difere de zero, mas o outro não, podemos concluir que os grupos são diferentes?

Portanto, a resposta para sua pergunta é complexa. Não acho úteis respostas dicotômicas aos dados com base nos valores de P ou nos tamanhos de efeito; portanto, os tamanhos de efeito são superiores aos valores de P? Sim, não, às vezes, talvez, e isso depende do seu propósito.

Michael Lew - restabelece Monica
fonte
Eu acho que seria preferível apresentar o tamanho do efeito e seu intervalo de confiança, desde que o analista seja capaz de declarar corretamente o tamanho de um efeito significativo para o estudo em questão. O intervalo de confiança, diferentemente do valor-p, dá ao leitor uma noção da precisão da estimativa e de sua extremidade.
AdamO 18/08/19
1
@AdamO Sim, concordo amplamente, mas o valor P tem duas coisas a oferecer e não deve ser omitido. É um índice da força da evidência contra o nulo, algo que só pode ser obtido a partir de um intervalo de confiança por um olho muito experiente, e um valor P exato não convida diretamente a dicotomia de dentro / fora do intervalo de confiança. . Obviamente, uma função de probabilidade oferece vantagens sobre os dois.
Michael Lew - restabelece Monica
14

No contexto da pesquisa aplicada, os tamanhos dos efeitos são necessários para que os leitores interpretem o significado prático (em oposição ao significado estatístico) dos resultados. Em geral, os valores de p são muito mais sensíveis ao tamanho da amostra do que os tamanhos dos efeitos. Se um experimento mede um tamanho de efeito com precisão (ou seja, é suficientemente próximo do parâmetro populacional que está estimando), mas produz um valor p não significativo, então todas as coisas são iguais, aumentando o tamanho da amostra resultará no mesmo tamanho de efeito, mas um valor p mais baixo. Isso pode ser demonstrado com análises ou simulações de potência.

À luz disso, é possível alcançar valores de p altamente significativos para tamanhos de efeito que não têm significado prático. Por outro lado, os desenhos de estudo com baixa potência podem produzir valores de p não significativos para tamanhos de efeito de grande importância prática.

É difícil discutir os conceitos de significância estatística em relação ao tamanho do efeito sem uma aplicação específica do mundo real. Como exemplo, considere um experimento que avalie o efeito de um novo método de estudo na nota média dos alunos (GPA). Eu argumentaria que um tamanho de efeito de 0,01 pontos de classificação tem pouco significado prático (ou seja, 2,50 em comparação com 2,51). Supondo um tamanho de amostra de 2.000 alunos nos grupos de tratamento e controle e um desvio padrão da população de 0,5 pontos:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

média da amostra de tratamento = 2,51

média da amostra de controle = 2,50

tamanho do efeito = 2,51 - 2,50 = 0,01

p = 0,53

Aumentar o tamanho da amostra para 20.000 alunos e manter todo o resto constante gera um valor p significativo:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

média da amostra de tratamento = 2,51

média da amostra de controle = 2,50

tamanho do efeito = 2,51 - 2,50 = 0,01

p = 0,044

Obviamente, não é trivial aumentar o tamanho da amostra em uma ordem de magnitude! No entanto, acho que todos podemos concordar que a melhoria prática oferecida por este método de estudo é insignificante. Se confiarmos apenas no valor-p, poderemos acreditar de outra forma no caso n = 20.000.

Pessoalmente, eu advogo por relatar valores de p e tamanhos de efeito. E pontos de bônus para estatísticas t ou F, graus de liberdade e diagnóstico de modelos!

Darren James
fonte
2
Darren, por favor, mostre o que você quer dizer exatamente em R ou algo como PO.
user138773
7
@ James Darrent Não há importância prática na diferença entre p = 0,065 ep = 0,043 além da suposição infeliz de que p = 0,05 é uma linha brilhante que deve ser respeitada. Nem o valor P representa evidência convincente a favor ou contra qualquer coisa por si só.
Michael Lew - restabelece Monica
@ Michael Lew Sim, eu concordo!
Darren James
1
James, dado seu código e explicações, você parece ter entendido completamente o ponto do OP. Seu código R também está errado! Porque você NÃO definiu o var.equal = TRUEtempo em que seus sds são iguais. Com esse histórico, não sei por que você postou uma resposta como essa. O OP está fazendo uma pergunta que não tem uma resposta fácil, pelo menos no momento!
user138773
1
Adicionei var.equal = TRUE ao código. Mas é desnecessário neste caso. Os mesmos valores p são obtidos com var.equal = TRUE e o padrão var.equal = FALSE.
Darren James
5

Atualmente, trabalho no campo da ciência de dados e, antes disso, trabalhei em pesquisa educacional. Enquanto em cada "carreira" colaborei com pessoas que não tinham formação formal em estatística e onde a ênfase da significância estatística (e prática) é fortemente colocada no valor-p . Aprendi a incluir e enfatizar tamanhos de efeito em minhas análises, porque há uma diferença entre significância estatística e significância prática.

Geralmente, as pessoas com quem trabalhei se preocupavam com uma coisa "nosso programa / recurso produz e afeta, sim ou não?". Para uma pergunta como essa, você pode fazer algo tão simples quanto um teste t e informar a eles "sim, seu programa / recurso faz a diferença". Mas quão grande ou pequena é essa "diferença"?

Primeiro, antes de começar a me aprofundar neste tópico, gostaria de resumir a que nos referimos ao falar sobre tamanhos de efeito

O tamanho do efeito é simplesmente uma maneira de quantificar o tamanho da diferença entre dois grupos. [...] É particularmente valioso para quantificar a eficácia de uma intervenção específica, em relação a algumas comparações. Ele nos permite ir além do simplista: " Funciona ou não?" para o muito mais sofisticado, 'Quão bem ele funciona em vários contextos?' Além disso, ao enfatizar o aspecto mais importante de uma intervenção - o tamanho do efeito - em vez de sua significância estatística (que combina o tamanho do efeito e o tamanho da amostra), promove uma abordagem mais científica para a acumulação de conhecimento. Por esses motivos, o tamanho do efeito é uma ferramenta importante para relatar e interpretar a eficácia.

É o tamanho do efeito, estúpido: qual é o tamanho do efeito e por que é importante

α

Por que o valor P não é suficiente?

Significância estatística é a probabilidade de que a diferença observada entre dois grupos seja devida ao acaso. Se o valor de P for maior que o nível alfa escolhido (por exemplo, 0,05), qualquer diferença observada será assumida como explicada pela variabilidade da amostra. Com uma amostra suficientemente grande, um teste estatístico quase sempre demonstra uma diferença significativa, a menos que não exista nenhum efeito, ou seja, quando o tamanho do efeito é exatamente zero; contudo, diferenças muito pequenas, mesmo que significativas, geralmente não fazem sentido. Portanto, relatar apenas o valor P significativo para uma análise não é adequado para que os leitores entendam completamente os resultados.

E para corroborar os comentários de @ DarrenJames sobre grandes amostras

Por exemplo, se o tamanho da amostra for 10.000, é provável que seja encontrado um valor P significativo, mesmo quando a diferença nos resultados entre os grupos é insignificante e pode não justificar uma intervenção cara ou demorada em relação a outra. O nível de significância por si só não prevê o tamanho do efeito. Ao contrário dos testes de significância, o tamanho do efeito é independente do tamanho da amostra. A significância estatística, por outro lado, depende do tamanho da amostra e do tamanho do efeito. Por esse motivo, os valores de P são considerados confusos devido à dependência do tamanho da amostra. Às vezes, um resultado estatisticamente significativo significa apenas que um grande tamanho de amostra foi usado. [Há uma visão equivocada de que esse comportamento representa um viés contra a hipótese nula.Por que o teste de hipóteses freqüentista se torna tendencioso para rejeitar a hipótese nula com amostras suficientemente grandes? ]

Usando o tamanho do efeito - ou por que o valor P não é suficiente

Relatar tamanhos de efeito e valor-P

Agora, para responder à pergunta, os tamanhos de efeito são superiores aos valores de p ? Eu argumentaria que cada um deles serve como componentes importantes na análise estatística que não podem ser comparados nesses termos e devem ser relatados juntos. O valor p é uma estatística para indicar significância estatística (diferença da distribuição nula), em que o tamanho do efeito coloca em palavras a diferença.

Como exemplo, diga seu supervisor, Bob, que não é muito favorável a estatísticas, está interessado em ver se havia uma relação significativa entre peso (peso) e mpg (milhas por galão). Você inicia a análise com hipóteses

H0 0:βmpg=0 0 vs HUMA:βmpg0 0

α=0,05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summaryβmpg0 0

Assim, você conseguiu concluir que os resultados eram estatisticamente significativos e comunicar a significância em termos práticos.

Espero que isso tenha sido útil para responder à sua pergunta.

Jon
fonte
Jon, obrigado, existem MUITAS áreas cinzentas das quais eu esperava ouvir mais, mas não o fiz. Em muitas situações, tamanhos de efeito e valores-p não concordam. Muitos confiam em tamanhos de efeito em situações que eu queria saber o porquê. Eu esperava ouvir mais sobre simulações que pudessem mostrar pontos importantes. Em relação ao assunto que você levantou, o tamanho do efeito pode ser pequeno, mas não exatamente zero; métodos de teste de equivalência já existem há vários anos. Eu gosto ainda mais do teste de equivalência bayesiana. De qualquer forma, provavelmente não fiz minha pergunta com clareza suficiente. - Graças
rnorouzian
BTW, um colega comentou que o código R de Daren está errado, parece que ele está certo. Ele não colocou var.equal = TRUE.
Rnorouzian 18/08
* Em muitas situações, tamanhos de efeito e valores-p não concordam. * - você pode fornecer mais informações sobre isso? Um exemplo? Em relação ao assunto que você levantou, ou seja, esse tamanho de efeito pode ser pequeno, mas não exatamente zero - essa situação pode resultar em um tamanho de amostra grande. Portanto, se o tamanho do efeito for quase zero, a variável de interesse poderá não impactar significativamente o resultado ou o relacionamento poderá ser especificado incorretamente (por exemplo, linear versus não linear).
Jon
Apenas tente esta ferramenta . Veja também este documento . Parece que precisarei fazer outra pergunta posteriormente usando algum código para maior clareza. -- Obrigado.
Rnorouzian
@ rnorouzian, ok, eu corri o seu código. Onde você quer chegar?
Jon
4

A utilidade dos tamanhos de efeito em relação aos valores-p (assim como outras métricas de inferência estatística) é rotineiramente debatida em meu campo - psicologia - e o debate é atualmente "mais quente" do que o normal por razões relevantes à sua pergunta. E embora eu esteja certo de que a psicologia não é necessariamente o campo científico mais estatisticamente sofisticado, ela prontamente discutiu, estudou - e às vezes demonstrou - limitações de várias abordagens à inferência estatística, ou pelo menos como elas são limitadas pelo uso humano. As respostas já postadas incluem boas informações, mas caso você esteja interessado em uma lista mais extensa (e referências) de razões a favor e contra cada uma, veja abaixo.

Por que os valores p são indesejáveis?

  • Como observa Darren James (e sua simulação mostra), os valores de p dependem amplamente do número de observações que você tem (ver Kirk, 2003).
  • Como Jon observa, os valores-p representam a probabilidade condicional de observar os dados como extremos ou extremos, dado que a hipótese nula é verdadeira. Como a maioria dos pesquisadores prefere ter probabilidades da hipótese de pesquisa e / ou da hipótese nula, os valores de p não falam com probabilidades nas quais os pesquisadores estão mais interessados (ou seja, da hipótese nula ou de pesquisa, ver Dienes, 2008).
  • Muitos que usam valores-p não entendem o que significam / não significam (Schmidt & Hunter, 1997). A referência de Michael Lew ao artigo de Gelman e Stern (2006) ressalta ainda mais os mal-entendidos dos pesquisadores sobre o que se pode (ou não) interpretar a partir dos valores-p. E, comodemonstrauma história relativamente recente no FiveThirtyEight , esse continua sendo o caso.
  • Os valores de p não são bons em prever valores de p subsequentes (Cumming, 2008)
  • Os valores de p são frequentemente relatados erroneamente (com mais frequência inflacionando significância), e o relato incorreto está vinculado à falta de vontade de compartilhar dados (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011).
  • Os valores de p podem ser (e historicamente têm sido) distorcidos ativamente através da flexibilidade analítica e, portanto, não são confiáveis (John et al., 2012; Simmons et al., 2011)
  • Os valores de p são desproporcionalmente significativos, pois os sistemas acadêmicos parecem recompensar os cientistas pela significância estatística sobre a precisão científica (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)

Por que os tamanhos de efeito são desejáveis?

Observe que estou interpretando sua pergunta como se referindo especificamente a tamanhos de efeito padronizados, pois você diz que eles permitem que os pesquisadores transformem suas descobertas “EM UMA Métrica COMUM”.

  • Como Jon e Darren James indicam, os tamanhos dos efeitos indicam a magnitude de um efeito, independentemente do número de observações (American Psychological Association 2010; Cumming, 2014), em vez de tomar decisões dicotômicas sobre a existência ou não de um efeito.
  • Os tamanhos dos efeitos são valiosos porque possibilitam as meta-análises, e as meta-análises conduzem ao conhecimento cumulativo (Borenstein et al., 2009; Chan & Arvey, 2012)
  • O tamanho dos efeitos ajuda a facilitar o planejamento do tamanho da amostra por meio de uma análise de potência a priori e, portanto, a alocação eficiente de recursos na pesquisa (Cohen, 1992)

Por que os valores p são desejáveis?

Embora sejam menos frequentemente adotados, os valores-p têm várias vantagens. Alguns são bem conhecidos e antigos, enquanto outros são relativamente novos.

  • Os valores de p fornecem um índice conveniente e familiar da força da evidência em relação à hipótese nula do modelo estatístico.

  • Quando calculados corretamente, os valores p fornecem um meio de tomar decisões dicotômicas (que às vezes são necessárias), e os valores p ajudam a manter taxas de erro falso-positivas de longo prazo em um nível aceitável (Dienes, 2008; Sakaluk, 2016). Não é estritamente correto dizer que os valores P são necessários para decisões dicotômicas. Eles são de fato amplamente usados ​​dessa maneira, mas Neyman & Pearson usaram 'regiões críticas' no espaço estatístico do teste para esse fim. Veja esta pergunta e suas respostas]

  • Os valores p podem ser usados ​​para facilitar o planejamento do tamanho da amostra continuamente eficiente (não apenas uma análise de potência única) (Lakens, 2014)
  • Os valores p podem ser usados ​​para facilitar a meta-análise e avaliar o valor evidencial (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Veja este post do blog para uma discussão acessível sobre como as distribuições de valores-p podem ser usadas dessa maneira, bem como esta postagem do CV para uma discussão relacionada.
  • Os valores p podem ser usados ​​forense para determinar se práticas de pesquisa questionáveis ​​podem ter sido usadas e como resultados replicáveis ​​podem ser (Schimmack, 2014; ver também o aplicativo de Schönbrodt, 2015)

Por que os tamanhos de efeito são indesejáveis ​​(ou superestimados)?

Talvez a posição mais contra-intuitiva para muitos; por que relatar tamanhos de efeito padronizados seria indesejável ou, no mínimo, superestimado?

  • Em alguns casos, os tamanhos de efeito padronizados não são exatamente o que deveriam ser (por exemplo, Groenlândia, Schlesselman e Criqui, 1986). Baguely (2009), em particular, tem uma boa descrição de algumas das razões pelas quais os tamanhos de efeito bruto / não padronizado podem ser mais desejáveis.
  • Apesar de sua utilidade para a análise de potência a priori, os tamanhos dos efeitos não são realmente usados ​​de maneira confiável para facilitar o planejamento eficiente do tamanho da amostra (Maxwell, 2004)
  • Mesmo quando os tamanhos de efeito são usados ​​no planejamento do tamanho da amostra, porque são inflados via viés de publicação (Rosenthal, 1979) , os tamanhos de efeito publicados são de utilidade questionável para o planejamento confiável do tamanho da amostra (Simonsohn, 2013)
  • As estimativas de tamanho de efeito podem ser - e foram - sistematicamente calculadas erroneamente em software estatístico (Levine & Hullet, 2002)
  • Os tamanhos dos efeitos são extraídos por engano (e provavelmente relatados incorretamente), o que prejudica a credibilidade das metanálises (Gøtzsche et al., 2007)
  • Por fim, a correção do viés de publicação nos tamanhos dos efeitos permanece ineficaz (consulte Carter et al., 2017), que, se você acredita que o viés de publicação existe, torna as metanálises menos impactantes.

Sumário

Fazendo eco ao argumento de Michael Lew, os valores de p e os tamanhos dos efeitos são apenas duas evidências estatísticas; existem outros que valem a pena considerar também. Porém, como valores-p e tamanhos de efeito, outras métricas de valor probatório também têm problemas compartilhados e únicos. Os pesquisadores geralmente aplicam mal e interpretam mal os intervalos de confiança (por exemplo, Hoekstra et al., 2014; Morey et al., 2016), por exemplo, e o resultado das análises bayesianas pode distorcer os pesquisadores, assim como ao usar valores-p (por exemplo, Simonsohn , 2014).

Todas as métricas de evidência venceram e todas devem ter prêmios.

Referências

Associação Americana de Psicologia. (2010). Manual de publicação da American Psychological Association (6ª edição). Washington, DC: Associação Americana de Psicologia.

Baguley, T. (2009). Tamanho de efeito padronizado ou simples: o que deve ser relatado? British Journal of Psychology, 100 (3), 603-617.

Bakker, M. & Wicherts, JM (2011). A (má) comunicação de resultados estatísticos em periódicos de psicologia. Métodos de pesquisa de comportamento, 43 (3), 666-678.

Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Introdução à meta-análise. West Sussex, Reino Unido: John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 de agosto). Corrigindo o viés em psicologia: Uma comparação de métodos meta-analíticos. Obtido em osf.io/preprints/psyarxiv/9h3nu

Chan, ME e Arvey, RD (2012). Meta-análise e desenvolvimento do conhecimento. Perspectives on Psychological Science, 7 (1), 79-92.

Cohen, J. (1992). Uma cartilha de poder. Boletim Psicológico, 112 (1), 155-159. 

Cumming, G. (2008). Replicação ep intervalos: os valores p preveem o futuro apenas vagamente, mas os intervalos de confiança são muito melhores. Perspectives on Psychological Science, 3, 286–300.

Dienes, D. (2008). Compreendendo a psicologia como ciência: uma introdução à inferência científica e estatística. Nova York, NY: Palgrave MacMillan.

Fanelli, D. (2010). Resultados "positivos" aumentam a hierarquia das ciências. PloS um, 5 (4), e10068.

Gelman, A. & Stern, H. (2006). A diferença entre "significativo" e "não significativo" não é, por si só, estatisticamente significante. The American Statistician, 60 (4), 328-331.

Gøtzsche, PC, Hróbjartsson, A., Marić, K. e Tendal, B. (2007). Erros de extração de dados em metanálises que usam diferenças médias padronizadas. JAMA, 298 (4), 430-437.

Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). A falácia de empregar coeficientes de regressão padronizados e correlações como medidas de efeito. American Journal of Epidemiology, 123 (2), 203-208.

Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Interpretação robusta dos intervalos de confiança. Boletim psiconômico e revisão, 21 (5), 1157-1164.

John, LK, Loewenstein, G. e Prelec, D. (2012). Medir a prevalência de práticas de pesquisa questionáveis ​​com incentivos para dizer a verdade. Ciência psicológica, 23 (5), 524-532.

Kirk, RE (2003). A importância da magnitude do efeito. Em SF Davis (Ed.), Manual de métodos de pesquisa em psicologia experimental (pp. 83-105). Malden, MA: Blackwell.

Lakens, D. (2014). Realizando estudos de alta potência com eficiência com análises sequenciais. European Journal of Social Psychology, 44 (7), 701-710.

Levine, TR & Hullett, CR (2002). Eta ao quadrado, eta ao quadrado parcial e declaração incorreta do tamanho do efeito na pesquisa em comunicação. Human Communication Research, 28 (4), 612-625.

Maxwell, SE (2004). A persistência de estudos de baixo poder na pesquisa psicológica: causas, consequências e remédios. Métodos psicológicos, 9 (2), 147.

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Wagenmakers, EJ (2016). A falácia de confiar em intervalos de confiança. Boletim psiconômico e revisão, 23 (1), 103-123.

Nosek, BA, Spies, JR e Motyl, M. (2012). Utopia científica: II. Reestruturar incentivos e práticas para promover a verdade sobre a publicabilidade. Perspectives on Psychological Science, 7 (6), 615-631.

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S., & Wicherts, JM (2016). A prevalência de erros de relatórios estatísticos em psicologia (1985-2013). Métodos de pesquisa de comportamento, 48 (4), 1205-1226.

Rosenthal, R. (1979). O problema da gaveta de arquivos e a tolerância para resultados nulos. Boletim Psicológico, 86 (3), 638-641.

Sakaluk, JK (2016). Explorando pequeno, confirmando grande: um sistema alternativo às novas estatísticas para o avanço da pesquisa psicológica cumulativa e replicável. Jornal de Psicologia Social Experimental, 66, 47-54.

Schimmack, U. (2014). Quantificando a integridade da pesquisa estatística: o índice de replicabilidade. Obtido em http://www.r-index.org 

Schmidt, FL, & Hunter, JE (1997). Oito objeções comuns, mas falsas, à interrupção dos testes de significância na análise dos dados da pesquisa. Em LL Harlow, SA Mulaik e JH Steiger (Eds.), E se não houvesse testes de significância? (pp. 37-64). Mahwah, NJ: Erlbaum.

Schönbrodt, FD (2015). p-checker: analisador de valor p para todos. Recuperado em http://shinyapps.org/apps/p-checker/

Simmons, JP, Nelson, LD, e Simonsohn, U. (2011). Psicologia falso-positiva: A flexibilidade não revelada na coleta e análise de dados permite apresentar algo tão significativo. Ciência psicológica, 22 (11), 1359-1366.

Simonsohn, U. (2013). A loucura de alimentar réplicas com base no tamanho do efeito observado. Retirado de http://datacolada.org/4

Simonsohn, U. (2014). Hacking posterior. Recuperado em http://datacolada.org/13 .

Simonsohn, U., Nelson, LD, e Simmons, JP (2014). Curva-P: Uma chave para a gaveta de arquivos. Journal of Experimental Psychology: General, 143 (2), 534-547.

Simonsohn, U., Nelson, LD, e Simmons, JP (2014). Curva-P e tamanho do efeito: corrigindo o viés de publicação usando apenas resultados significativos. Perspectives on Psychological Science, 9 (6), 666-681.

Wicherts, JM, Bakker, M. & Molenaar, D. (2011). A disposição de compartilhar dados de pesquisa está relacionada à força da evidência e à qualidade do relato dos resultados estatísticos. PloS um, 6 (11), e26828.

jsakaluk
fonte
2
Muito boa coleção de idéias e referências. Deve ser útil para quem quer ir um pouco mais longe, mas observe que muitos dos pontos têm perguntas e respostas relevantes neste site. Links para esses também ajudariam.
Michael Lew - restabelece Monica
@MichaelLew Thanks. Vou ver como adicionar alguns links quando tiver tempo - levei a maior parte da tarde para redigir esta resposta e montar as referências. Em relação à sua edição, acho que seu ponto de vista é bem aceito, mas talvez mais uma adição, em oposição a uma correção? Eu disse que os valores p fornecem um meio de tomar decisões dicotômicas (não que sejam "necessárias" ou a única maneira de fazê-lo). Concordo que as regiões críticas de NP são outra maneira, mas respondi ao OP no contexto de quais valores de p oferecem versus tamanhos de efeito padronizados.
Jsakaluk 19/08
1
jsakaluk, sim, posso ver que você gastaria muito tempo com a resposta e é muito útil e digno de seu esforço. Editei o item sobre as vantagens dos valores-P, porque você escreveu "Quando usado corretamente". Eles podem ser dicotomizados, enquanto a realidade é que esse uso ignora grande parte das informações codificadas no valor-P e, portanto, é discutível (e na minha opinião) um uso incorreto. Eu não queria subverter sua intenção e, portanto, mudei "usado" para "calculado".
Michael Lew - restabelece Monica
3

Do ponto de vista de um epidemiologista, sobre por que prefiro tamanhos de efeito sobre valores-p (embora, como algumas pessoas tenham notado, seja uma falsa dicotomia):

  1. O tamanho do efeito me diz o que eu realmente quero, o valor p apenas me diz se é distinguível de nulo. Um risco relativo de 1.0001, 1.5, 5 e 50 pode ter o mesmo valor p associado a eles, mas significa coisas muito diferentes em termos do que precisamos fazer no nível da população.
  2. Confiar em um valor-p reforça a noção de que o teste de hipóteses baseado em significância é a evidência final. Considere as duas declarações a seguir: "Os médicos que sorriem para os pacientes não foram significativamente associados a um resultado adverso durante a internação". vs. "Os pacientes que tiveram seu médico sorrindo para eles tiveram 50% menos chances de ter um resultado adverso (p = 0,086)." Talvez você ainda, dado que não tem absolutamente nenhum custo, considere sugerir que os médicos sorriam para seus pacientes?
  3. Trabalho com muitos modelos de simulação estocástica, em que o tamanho da amostra é uma função do poder e da paciência da computação, e os valores de p são essencialmente sem sentido. Consegui obter resultados p <0,05 para coisas que não têm absolutamente nenhuma relevância clínica ou de saúde pública.
Fomite
fonte