Muita ênfase é colocada em confiar e relatar tamanhos de efeito em vez de valores-p na pesquisa aplicada (por exemplo, citações mais abaixo).
Mas não é o caso que um tamanho de efeito como um valor-p seja uma variável aleatória e, como tal, possa variar de amostra para amostra quando o mesmo experimento é repetido? Em outras palavras, estou perguntando quais recursos estatísticos (por exemplo, o tamanho do efeito é menos variável de amostra para amostra que o valor-p) tornam os tamanhos de efeito melhores índices de medição de evidências do que os valores-p.
No entanto, devo mencionar um fato importante que separa um valor p de um tamanho de efeito. Ou seja, um tamanho de efeito é algo a ser estimado porque possui um parâmetro de população, mas um valor p não é nada para ser estimado porque não possui nenhum parâmetro de população.
Para mim, o tamanho do efeito é simplesmente uma métrica que, em certas áreas da pesquisa (por exemplo, pesquisa em humanos), ajuda a transformar descobertas empíricas provenientes de várias ferramentas de medição desenvolvidas por pesquisadores em uma métrica comum (é justo dizer que usar essa pesquisa em métrica humana pode se encaixar melhor o clube de pesquisa quantitativa).
Talvez se tomarmos uma proporção simples como tamanho de efeito, o seguinte (em R) é o que mostra a supremacia dos tamanhos de efeito sobre os valores-p? (o valor p muda, mas o tamanho do efeito não)
binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55%
binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%
Observe que a maioria dos tamanhos de efeito está linearmente relacionada a uma estatística de teste. Portanto, é um passo fácil realizar testes de hipótese nula usando tamanhos de efeito.
Por exemplo, a estatística t resultante de um design pré-pós pode ser facilmente convertida no tamanho de efeito d de Cohen correspondente. Como tal, a distribuição de d de Cohen é simplesmente a versão em escala de localização na distribuição.
As citações:
Como os valores de p são índices confusos, em teoria, 100 estudos com tamanhos de amostra variados e 100 tamanhos de efeito diferentes podem ter o mesmo valor de p, e 100 estudos com o mesmo tamanho de efeito podem ter 100 valores diferentes para o valor de p .
ou
O valor p é uma variável aleatória que varia de amostra para amostra. . . . Consequentemente, não é apropriado comparar os valores de p de dois experimentos distintos, ou de testes em duas variáveis medidas no mesmo experimento, e declarar que um é mais significativo que o outro?
Citações:
Thompson, B. (2006). Fundamentos da estatística comportamental: uma abordagem baseada em insight. Nova York, NY: Guilford Press.
Good, PI, & Hardin, JW (2003). Erros comuns nas estatísticas (e como evitá-los). Nova York: Wiley.
fonte
Respostas:
O conselho para fornecer tamanhos de efeito em vez de valores P baseia-se em uma dicotomia falsa e é tolo. Por que não apresentar os dois?
As conclusões científicas devem ser baseadas em uma avaliação racional das evidências e da teoria disponíveis. Valores P e tamanhos de efeitos observados sozinhos ou juntos não são suficientes.
Nenhuma das passagens citadas que você fornece é útil. É claro que os valores de P variam de experimento para experimento, a força da evidência nos dados varia de experimento para experimento. O valor P é apenas uma extração numérica dessa evidência por meio do modelo estatístico. Dada a natureza do valor P, raramente é relevante para fins analíticos comparar um valor P com outro, então talvez seja isso que o autor da cotação está tentando transmitir.
Se você deseja comparar valores-P, provavelmente deveria ter realizado um teste de significância em um arranjo diferente dos dados, a fim de responder sensatamente à questão de interesse. Veja estas perguntas: valores-p para valores-p? e Se a média de um grupo difere de zero, mas o outro não, podemos concluir que os grupos são diferentes?
Portanto, a resposta para sua pergunta é complexa. Não acho úteis respostas dicotômicas aos dados com base nos valores de P ou nos tamanhos de efeito; portanto, os tamanhos de efeito são superiores aos valores de P? Sim, não, às vezes, talvez, e isso depende do seu propósito.
fonte
No contexto da pesquisa aplicada, os tamanhos dos efeitos são necessários para que os leitores interpretem o significado prático (em oposição ao significado estatístico) dos resultados. Em geral, os valores de p são muito mais sensíveis ao tamanho da amostra do que os tamanhos dos efeitos. Se um experimento mede um tamanho de efeito com precisão (ou seja, é suficientemente próximo do parâmetro populacional que está estimando), mas produz um valor p não significativo, então todas as coisas são iguais, aumentando o tamanho da amostra resultará no mesmo tamanho de efeito, mas um valor p mais baixo. Isso pode ser demonstrado com análises ou simulações de potência.
À luz disso, é possível alcançar valores de p altamente significativos para tamanhos de efeito que não têm significado prático. Por outro lado, os desenhos de estudo com baixa potência podem produzir valores de p não significativos para tamanhos de efeito de grande importância prática.
É difícil discutir os conceitos de significância estatística em relação ao tamanho do efeito sem uma aplicação específica do mundo real. Como exemplo, considere um experimento que avalie o efeito de um novo método de estudo na nota média dos alunos (GPA). Eu argumentaria que um tamanho de efeito de 0,01 pontos de classificação tem pouco significado prático (ou seja, 2,50 em comparação com 2,51). Supondo um tamanho de amostra de 2.000 alunos nos grupos de tratamento e controle e um desvio padrão da população de 0,5 pontos:
média da amostra de tratamento = 2,51
média da amostra de controle = 2,50
tamanho do efeito = 2,51 - 2,50 = 0,01
p = 0,53
Aumentar o tamanho da amostra para 20.000 alunos e manter todo o resto constante gera um valor p significativo:
média da amostra de tratamento = 2,51
média da amostra de controle = 2,50
tamanho do efeito = 2,51 - 2,50 = 0,01
p = 0,044
Obviamente, não é trivial aumentar o tamanho da amostra em uma ordem de magnitude! No entanto, acho que todos podemos concordar que a melhoria prática oferecida por este método de estudo é insignificante. Se confiarmos apenas no valor-p, poderemos acreditar de outra forma no caso n = 20.000.
Pessoalmente, eu advogo por relatar valores de p e tamanhos de efeito. E pontos de bônus para estatísticas t ou F, graus de liberdade e diagnóstico de modelos!
fonte
var.equal = TRUE
tempo em que seussd
s são iguais. Com esse histórico, não sei por que você postou uma resposta como essa. O OP está fazendo uma pergunta que não tem uma resposta fácil, pelo menos no momento!Atualmente, trabalho no campo da ciência de dados e, antes disso, trabalhei em pesquisa educacional. Enquanto em cada "carreira" colaborei com pessoas que não tinham formação formal em estatística e onde a ênfase da significância estatística (e prática) é fortemente colocada no valor-p . Aprendi a incluir e enfatizar tamanhos de efeito em minhas análises, porque há uma diferença entre significância estatística e significância prática.
Geralmente, as pessoas com quem trabalhei se preocupavam com uma coisa "nosso programa / recurso produz e afeta, sim ou não?". Para uma pergunta como essa, você pode fazer algo tão simples quanto um teste t e informar a eles "sim, seu programa / recurso faz a diferença". Mas quão grande ou pequena é essa "diferença"?
Primeiro, antes de começar a me aprofundar neste tópico, gostaria de resumir a que nos referimos ao falar sobre tamanhos de efeito
É o tamanho do efeito, estúpido: qual é o tamanho do efeito e por que é importante
E para corroborar os comentários de @ DarrenJames sobre grandes amostras
Usando o tamanho do efeito - ou por que o valor P não é suficiente
Relatar tamanhos de efeito e valor-P
Agora, para responder à pergunta, os tamanhos de efeito são superiores aos valores de p ? Eu argumentaria que cada um deles serve como componentes importantes na análise estatística que não podem ser comparados nesses termos e devem ser relatados juntos. O valor p é uma estatística para indicar significância estatística (diferença da distribuição nula), em que o tamanho do efeito coloca em palavras a diferença.
Como exemplo, diga seu supervisor, Bob, que não é muito favorável a estatísticas, está interessado em ver se havia uma relação significativa entre peso (peso) e mpg (milhas por galão). Você inicia a análise com hipóteses
summary
Assim, você conseguiu concluir que os resultados eram estatisticamente significativos e comunicar a significância em termos práticos.
Espero que isso tenha sido útil para responder à sua pergunta.
fonte
var.equal = TRUE
.A utilidade dos tamanhos de efeito em relação aos valores-p (assim como outras métricas de inferência estatística) é rotineiramente debatida em meu campo - psicologia - e o debate é atualmente "mais quente" do que o normal por razões relevantes à sua pergunta. E embora eu esteja certo de que a psicologia não é necessariamente o campo científico mais estatisticamente sofisticado, ela prontamente discutiu, estudou - e às vezes demonstrou - limitações de várias abordagens à inferência estatística, ou pelo menos como elas são limitadas pelo uso humano. As respostas já postadas incluem boas informações, mas caso você esteja interessado em uma lista mais extensa (e referências) de razões a favor e contra cada uma, veja abaixo.
Por que os valores p são indesejáveis?
Por que os tamanhos de efeito são desejáveis?
Observe que estou interpretando sua pergunta como se referindo especificamente a tamanhos de efeito padronizados, pois você diz que eles permitem que os pesquisadores transformem suas descobertas “EM UMA Métrica COMUM”.
Por que os valores p são desejáveis?
Embora sejam menos frequentemente adotados, os valores-p têm várias vantagens. Alguns são bem conhecidos e antigos, enquanto outros são relativamente novos.
Os valores de p fornecem um índice conveniente e familiar da força da evidência em relação à hipótese nula do modelo estatístico.
Quando calculados corretamente, os valores p fornecem um meio de tomar decisões dicotômicas (que às vezes são necessárias), e os valores p ajudam a manter taxas de erro falso-positivas de longo prazo em um nível aceitável (Dienes, 2008; Sakaluk, 2016). Não é estritamente correto dizer que os valores P são necessários para decisões dicotômicas. Eles são de fato amplamente usados dessa maneira, mas Neyman & Pearson usaram 'regiões críticas' no espaço estatístico do teste para esse fim. Veja esta pergunta e suas respostas]
Por que os tamanhos de efeito são indesejáveis (ou superestimados)?
Talvez a posição mais contra-intuitiva para muitos; por que relatar tamanhos de efeito padronizados seria indesejável ou, no mínimo, superestimado?
Sumário
Fazendo eco ao argumento de Michael Lew, os valores de p e os tamanhos dos efeitos são apenas duas evidências estatísticas; existem outros que valem a pena considerar também. Porém, como valores-p e tamanhos de efeito, outras métricas de valor probatório também têm problemas compartilhados e únicos. Os pesquisadores geralmente aplicam mal e interpretam mal os intervalos de confiança (por exemplo, Hoekstra et al., 2014; Morey et al., 2016), por exemplo, e o resultado das análises bayesianas pode distorcer os pesquisadores, assim como ao usar valores-p (por exemplo, Simonsohn , 2014).
Todas as métricas de evidência venceram e todas devem ter prêmios.
Referências
Associação Americana de Psicologia. (2010). Manual de publicação da American Psychological Association (6ª edição). Washington, DC: Associação Americana de Psicologia.
Baguley, T. (2009). Tamanho de efeito padronizado ou simples: o que deve ser relatado? British Journal of Psychology, 100 (3), 603-617.
Bakker, M. & Wicherts, JM (2011). A (má) comunicação de resultados estatísticos em periódicos de psicologia. Métodos de pesquisa de comportamento, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Introdução à meta-análise. West Sussex, Reino Unido: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 de agosto). Corrigindo o viés em psicologia: Uma comparação de métodos meta-analíticos. Obtido em osf.io/preprints/psyarxiv/9h3nu
Chan, ME e Arvey, RD (2012). Meta-análise e desenvolvimento do conhecimento. Perspectives on Psychological Science, 7 (1), 79-92.
Cohen, J. (1992). Uma cartilha de poder. Boletim Psicológico, 112 (1), 155-159.
Cumming, G. (2008). Replicação ep intervalos: os valores p preveem o futuro apenas vagamente, mas os intervalos de confiança são muito melhores. Perspectives on Psychological Science, 3, 286–300.
Dienes, D. (2008). Compreendendo a psicologia como ciência: uma introdução à inferência científica e estatística. Nova York, NY: Palgrave MacMillan.
Fanelli, D. (2010). Resultados "positivos" aumentam a hierarquia das ciências. PloS um, 5 (4), e10068.
Gelman, A. & Stern, H. (2006). A diferença entre "significativo" e "não significativo" não é, por si só, estatisticamente significante. The American Statistician, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K. e Tendal, B. (2007). Erros de extração de dados em metanálises que usam diferenças médias padronizadas. JAMA, 298 (4), 430-437.
Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). A falácia de empregar coeficientes de regressão padronizados e correlações como medidas de efeito. American Journal of Epidemiology, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Interpretação robusta dos intervalos de confiança. Boletim psiconômico e revisão, 21 (5), 1157-1164.
John, LK, Loewenstein, G. e Prelec, D. (2012). Medir a prevalência de práticas de pesquisa questionáveis com incentivos para dizer a verdade. Ciência psicológica, 23 (5), 524-532.
Kirk, RE (2003). A importância da magnitude do efeito. Em SF Davis (Ed.), Manual de métodos de pesquisa em psicologia experimental (pp. 83-105). Malden, MA: Blackwell.
Lakens, D. (2014). Realizando estudos de alta potência com eficiência com análises sequenciais. European Journal of Social Psychology, 44 (7), 701-710.
Levine, TR & Hullett, CR (2002). Eta ao quadrado, eta ao quadrado parcial e declaração incorreta do tamanho do efeito na pesquisa em comunicação. Human Communication Research, 28 (4), 612-625.
Maxwell, SE (2004). A persistência de estudos de baixo poder na pesquisa psicológica: causas, consequências e remédios. Métodos psicológicos, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Wagenmakers, EJ (2016). A falácia de confiar em intervalos de confiança. Boletim psiconômico e revisão, 23 (1), 103-123.
Nosek, BA, Spies, JR e Motyl, M. (2012). Utopia científica: II. Reestruturar incentivos e práticas para promover a verdade sobre a publicabilidade. Perspectives on Psychological Science, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016). A prevalência de erros de relatórios estatísticos em psicologia (1985-2013). Métodos de pesquisa de comportamento, 48 (4), 1205-1226.
Rosenthal, R. (1979). O problema da gaveta de arquivos e a tolerância para resultados nulos. Boletim Psicológico, 86 (3), 638-641.
Sakaluk, JK (2016). Explorando pequeno, confirmando grande: um sistema alternativo às novas estatísticas para o avanço da pesquisa psicológica cumulativa e replicável. Jornal de Psicologia Social Experimental, 66, 47-54.
Schimmack, U. (2014). Quantificando a integridade da pesquisa estatística: o índice de replicabilidade. Obtido em http://www.r-index.org
Schmidt, FL, & Hunter, JE (1997). Oito objeções comuns, mas falsas, à interrupção dos testes de significância na análise dos dados da pesquisa. Em LL Harlow, SA Mulaik e JH Steiger (Eds.), E se não houvesse testes de significância? (pp. 37-64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-checker: analisador de valor p para todos. Recuperado em http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD, e Simonsohn, U. (2011). Psicologia falso-positiva: A flexibilidade não revelada na coleta e análise de dados permite apresentar algo tão significativo. Ciência psicológica, 22 (11), 1359-1366.
Simonsohn, U. (2013). A loucura de alimentar réplicas com base no tamanho do efeito observado. Retirado de http://datacolada.org/4
Simonsohn, U. (2014). Hacking posterior. Recuperado em http://datacolada.org/13 .
Simonsohn, U., Nelson, LD, e Simmons, JP (2014). Curva-P: Uma chave para a gaveta de arquivos. Journal of Experimental Psychology: General, 143 (2), 534-547.
Simonsohn, U., Nelson, LD, e Simmons, JP (2014). Curva-P e tamanho do efeito: corrigindo o viés de publicação usando apenas resultados significativos. Perspectives on Psychological Science, 9 (6), 666-681.
Wicherts, JM, Bakker, M. & Molenaar, D. (2011). A disposição de compartilhar dados de pesquisa está relacionada à força da evidência e à qualidade do relato dos resultados estatísticos. PloS um, 6 (11), e26828.
fonte
Do ponto de vista de um epidemiologista, sobre por que prefiro tamanhos de efeito sobre valores-p (embora, como algumas pessoas tenham notado, seja uma falsa dicotomia):
fonte