Qual é o tamanho do efeito ... e por que é útil?

18

Eu tenho um histórico de estatística no nível de pós-graduação introdutório (suponha que eu conheça estatística e probabilidade matemática em nível de graduação (por exemplo, Wackerly et al., Probabilidade de Ross) e possua algum conhecimento da teoria da medida).

Recentemente, iniciei um trabalho de desenho experimental e relatórios estatísticos em estatísticas da educação e fui colocado em um projeto no qual estou basicamente avaliando métricas de responsabilidade das escolas e preciso analisar os dados, propor alterações etc. Observe que sou o único um no meu departamento com formação em estatística matemática.

Na minha posição, as pessoas sugeriram fortemente o uso do tamanho do efeito para medir a eficácia dos programas. A única vez que ouvi falar em tamanho de efeito é do meu amigo, que estudou psicologia. Minha impressão é que

Effect Size=Difference of MeansStandard Deviation.

O que é tão útil nessa métrica em relação aos testes de hipóteses tradicionais e por que devo me preocupar com isso? Para mim, parece nada mais que uma estatística de teste para um teste duas amostras . Eu não acho isso útil, além de talvez colocar tudo na mesma escala (é por isso que alguém realmente "normaliza" alguma coisa), mas eu pensei que as estatísticas dos testes (que é o tamanho do efeito que me parece) estavam fora de moda , e valores- são preferidos.tp

Clarinetist
fonte
Estou um pouco confuso com o "histórico estatístico do nível de graduação"; os dois primeiros termos parecem se contradizer. Você pode esclarecer o que isso inclui? Isso é algo como o início das estatísticas do nível de pós-graduação ou algo mais?
Glen_b -Reinstala Monica
2
@Glen_b Sim, está começando as estatísticas em nível de pós-graduação. Suponha que eu conheça estatística e probabilidade matemática em nível de graduação (por exemplo, Wackerly et al., Probabilidade de Ross) e tenha algum conhecimento da teoria da medida.
Clarinetist
3
Eu posso simpatizar, OP. Vindo de conhecimentos matemáticos / estatísticos, costumava ser desconcertante discutir estatística com aqueles treinados em programas de doutorado em sociologia ou psicologia, porque eles têm termos diferentes para tudo :) e às vezes têm idéias rígidas sobre exatamente como fazer as coisas, independentemente de a melhor prática estatística, por exemplo, tentando convencer um revisor / editor teimoso de que a modelagem de equações estruturais não é a solução para todos os problemas ou que a linearidade nem sempre é uma boa suposição! No entanto, aprendi a me unir muito bem a essa comunidade, depois de vários anos!
CrockGill

Respostas:

20

Essa é uma medida do tamanho do efeito, mas existem muitas outras. Certamente não é a estatística do teste . Sua medida do tamanho do efeito costuma ser chamada de d de Cohen (estritamente falando, isso é correto apenas se o DP for estimado através do MLE - isto é, sem a correção de Bessel ); mais genericamente, é chamada de "diferença média padronizada". Talvez isso irá torná-lo mais claro que t d : dtdtd
Ou seja, o "/

d=x¯2-x¯1SDt=x¯2-x¯1SEt=x¯2-x¯1SDN
Falta N "na fórmula da diferença média padronizada. /N

De maneira mais geral, tirar o tamanho da amostra do valor fornece informações reais. Supondo que o efeito verdadeiro não seja exatamente a infinitas casas decimais, você pode obter qualquer nível de significância que desejar com N suficiente . O valor- p fornece informações sobre quão confiantes podemos estar em rejeitar a hipótese nula, mas o faz confluindo o tamanho do efeito com a quantidade de dados que você possui. É certamente bom saber se devemos rejeitar a hipótese nula, mas também seria bom saber se o efeito da sua intervenção educativa produz grandes ganhos para os estudantes ou é trivial e só foi significativa devido à grande N . 0 0NpN

- Reinstate Monica
fonte
15

Espero que alguém com experiência em uma área mais relevante (por exemplo, psicologia ou educação) entre em contato com uma resposta melhor, mas vou tentar.

" Tamanho do efeito " é um termo com mais de um significado - que muitos anos atrás levou algumas conversas confusas até que finalmente cheguei a essa conclusão. Aqui, estamos claramente lidando com a versão de desvio padrão para escala ("quantos desvios padrão isso mudou?")

Parte da razão para observar esse tipo de "tamanho do efeito" nas áreas de assunto em que são comuns é que eles frequentemente têm variáveis ​​cujos valores específicos não são inerentemente significativos, mas são construídos para tentar medir algo subjacente que é difícil de obter. às.

Por exemplo, imagine que você está tentando medir a satisfação no trabalho (talvez para um modelo que o relacione com algum conjunto de variáveis ​​independentes, talvez incluindo algum tratamento de interesse, por exemplo). Você não tem como abordá-lo diretamente, mas você pode (por exemplo) tentar criar um questionário para abordar aspectos diferentes dele, talvez usando algo como uma escala Likert.

Um pesquisador diferente pode ter uma abordagem diferente para medir a satisfação no trabalho e, portanto, seus dois conjuntos de medidas de "Satisfação" não são diretamente comparáveis ​​- mas se eles tiverem várias formas de validade e assim por diante, essas coisas serão verificadas (para que eles podem razoavelmente estar medindo a satisfação); então, espera-se que eles tenham tamanhos de efeito muito semelhantes; no menor tamanho de efeito será mais quase comparável.

Glen_b -Reinstate Monica
fonte
3
faz um bom trabalho ao introduzir a idéia de um 'construto' sem detalhes técnicos. Mas, em seu trabalho, clarinetista, você precisará entender essa idéia em profundidade. Eu recomendo fortemente a fonte original sobre 'validade de construção', o artigo de Cronbach & Meehl, de 1955, no Psychological Bulletin: psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf
David C. Norris
7

A fórmula acima é como você calcula o d de Cohen para amostras relacionadas (que provavelmente é o que você tem?). Se elas não estão relacionadas, é possível usar a variação combinada. Existem estatísticas diferentes que informarão sobre o tamanho do efeito, mas o d de Cohen é uma medida padronizada que pode variar entre 0 e 3. Se você tiver muitas variáveis ​​diferentes, pode ser bom ter uma medida padronizada quando estiver pensando em todos juntos. Por outro lado, muitas pessoas preferem entender o tamanho do efeito em termos das unidades que estão sendo medidas. Por que calcular d quando você já possui valores de p? Aqui está um exemplo de um conjunto de dados com o qual estou trabalhando atualmente. Eu estou olhando para uma intervenção comportamental conduzida nas escolas, medida usando questionários psicológicos validados (produzindo dados do Likert). Quase todas as minhas variáveis ​​mostram mudanças estatisticamente significativas, talvez sem surpresa, pois tenho uma amostra grande (n = ~ 250). No entanto, para algumas das variáveis, o valor dé bastante minúsculo, digamos 0,12, o que indica que, embora certamente haja mudanças, ela pode não ser uma mudança clinicamente importante e, por isso, é importante para a discussão e interpretação do que está acontecendo nos dados. Esse conceito é amplamente usado em psicologia e ciências da saúde, onde os profissionais (ou escolas, no seu caso) precisam considerar a utilidade clínica real dos tratamentos (ou o que quer que estejam experimentando). O d de Cohen nos ajuda a responder perguntas sobre se realmente vale a pena fazer uma intervenção (independentemente dos valores de p). Nas ciências médicas, eles também gostam de considerar o NNT e avaliar isso em termos da gravidade da condição em questão. Dê uma olhada neste excelente recurso em @krstoffr http://rpsychologist.com/d3/cohend/

jUST1N3
fonte
2

tn

p

CrockGill
fonte
2

De fato, agora os valores-p também estão "fora de moda": http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . O teste de significância de hipótese nula (NHST) produz pouco mais do que uma descrição do tamanho da sua amostra. (*) Qualquer intervenção experimental terá algum efeito, ou seja, que a hipótese nula simples de 'sem efeito' é sempre falsa em sentido estrito. . Portanto, um teste "não significativo" significa simplesmente que o tamanho da sua amostra não era grande o suficiente; um teste "significativo" significa que você coletou dados suficientes para "encontrar" algo.

O 'tamanho do efeito' representa uma tentativa de remediar isso, introduzindo uma medida na escala natural do problema. Na medicina, onde os tratamentos sempre têm algum efeito (mesmo que seja um efeito placebo), a noção de um 'efeito clinicamente significativo' é introduzida para proteger contra a probabilidade anterior de 50% de um 'tratamento' ter 'a ( estatisticamente) efeito positivo significativo '(ainda que minúsculo) em um estudo arbitrariamente grande.

Se eu entendo a natureza do seu trabalho, clarinetista, no final do dia, seu objetivo legítimo é informar ações / intervenções que melhorem a educação nas escolas sob seu alcance. Assim, seu cenário é teórico da decisão , e os métodos bayesianos são a abordagem mais apropriada (e exclusivamente coerente [1] ).

De fato, a melhor maneira de entender os métodos freqüentistas é como aproximações aos métodos bayesianos . O tamanho estimado do efeito pode ser entendido como uma medida de centralidade para a distribuição posterior bayesiana , enquanto o valor p pode ser entendido como uma medida da cauda posterior. Assim, juntas , essas duas grandezas contêm uma essência grosseira do posterior bayesiano que constitui a contribuição natural para uma perspectiva teórica da decisão sobre o seu problema. (Como alternativa, um intervalo de confiança freqüentista no tamanho do efeito pode ser entendido da mesma forma como um intervalo de credibilidade pretendido .)

Nos campos da psicologia e da educação, os métodos bayesianos são realmente bastante populares. Uma razão para isso é que é fácil instalar 'construções' nos modelos bayesianos, como variáveis ​​latentes. Você pode conferir o 'livro dos filhotes' de John K. Kruschke , um psicólogo. Na educação (onde você tem alunos aninhados em salas de aula, aninhados em escolas, aninhados em distritos, ...), a modelagem hierárquica é inevitável. E os modelos bayesianos também são ótimos para modelagem hierárquica. Nesta conta, você pode conferir Gelman & Hill [2].

[1]: Robert, Christian P. A escolha bayesiana: dos fundamentos teóricos à decisão à implementação computacional. 2nd ed. Springer Textos em Estatística. Nova York: Springer, 2007.

[2]: Gelman, Andrew e Jennifer Hill. Análise de dados usando regressão e modelos multiníveis / hierárquicos. Métodos Analíticos para Pesquisa Social. Cambridge; Nova York: Cambridge University Press, 2007.


Para mais informações sobre "coerência" de uma perspectiva de não bater necessariamente na cabeça com um tijolo bayesiano , consulte [3].

[3]: Robins, James e Larry Wasserman. "Condicionamento, probabilidade e coerência: uma revisão de alguns conceitos fundamentais." Jornal da Associação Estatística Americana 95, no. 452 (1 de dezembro de 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.

(*) Em [4], Meehl flagela o NHST de maneira muito mais elegante, mas não menos abrasiva, do que eu:

Como a hipótese nula é quase sempre falsa, as tabelas que resumem a pesquisa em termos de padrões de "diferenças significativas" são pouco mais que resultados complexos e causalmente não interpretáveis ​​das funções de poder estatístico.

[4]: Meehl, Paul E. "Riscos teóricos e asteriscos tabulares: Sir Karl, Sir Ronald e o lento progresso da psicologia branda". Journal of Consulting and Clinical Psychiatry 46 (1978): 806-34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


E aqui está uma citação relacionada de Tukey: /stats//a/728/41404

David C. Norris
fonte
1
" Qualquer intervenção experimental terá algum efeito" (minha ênfase) é uma afirmação bastante forte, como é o subsequente "sempre". Em alguns campos de estudo, é provavelmente uma excelente regra de ouro, mas acho que há perigos em ser muito abrangente. Eu também sugerem que "[TEHN] produz pouco mais de uma descrição do seu tamanho de amostra" é discutível: o valor-p emerge de uma interação entre ambos o tamanho da amostra e do tamanho do efeito.
Silverfish
@ Silverfish, obrigado pela sua resposta. Convido você a fornecer um exemplo em que minha perspectiva sobre os valores-p seria 'perigosa'. (BTW, eu coloquei alguns em itálico e usei a frase "em sentido estrito" em antecipação a uma reclamação como a sua. Minha reivindicação ainda permanece.) Além disso, embora o valor-p realmente "emerge de uma interação" de dois outros fatores, um deles (tamanho da amostra) é amplamente um parâmetro de design livre, escolhido arbitrariamente. Essa escolha arbitrária é o que o valor p reflete, portanto. Dois números são claramente necessários; por que não os pontos finais de um intervalo de confiança?
David C. Norris
2
Como exemplo: qualquer instância em que possamos razoavelmente esperar que a hipótese nula seja verdadeira, ou pelo menos onde não possamos afirmar abertamente que temos certeza de que ela é falsa, mesmo sem nos preocuparmos em conduzir um experimento ou examinar os dados. Nem todos os nulos são falsos: considere a pesquisa em parapsicologia, como experimentos de telepatia e pré-reconhecimento, mas muitos nulos são verdadeiros em campos que você pode considerar mais "cientificamente válido", como a genômica.
quer
5
-1, há muitos problemas aqui, IMO. O fato de um periódico menor de psicologia ter proibido os valores-p não significa que "os valores-p estão finalmente 'fora de moda'". A proibição foi amplamente criticada (incluindo uma declaração educada da ASA e não foi aceita por nenhuma outra revista nos meses desde então. Observo que a revista não está exigindo uma mudança para os métodos bayesianos (o que eu acho que é sua preferência) , mas só o considerará caso a caso.
gung - Reinstate Monica
3
No entanto, em um experimento verdadeiro, o processo de unidades aleatórias rompe caminhos endógenos, fornecendo um teste de um caminho causal direto de X a Y. É uma estranha afirmação metafísica afirmar que todas as variáveis ​​estão diretamente causalmente conectadas nas duas direções, mas se você não sustentar isso, é incoerente afirmar que a “hipótese nula de 'sem efeito' é sempre falsa”.
gung - Restabelece Monica