Eu tenho um histórico de estatística no nível de pós-graduação introdutório (suponha que eu conheça estatística e probabilidade matemática em nível de graduação (por exemplo, Wackerly et al., Probabilidade de Ross) e possua algum conhecimento da teoria da medida).
Recentemente, iniciei um trabalho de desenho experimental e relatórios estatísticos em estatísticas da educação e fui colocado em um projeto no qual estou basicamente avaliando métricas de responsabilidade das escolas e preciso analisar os dados, propor alterações etc. Observe que sou o único um no meu departamento com formação em estatística matemática.
Na minha posição, as pessoas sugeriram fortemente o uso do tamanho do efeito para medir a eficácia dos programas. A única vez que ouvi falar em tamanho de efeito é do meu amigo, que estudou psicologia. Minha impressão é que
O que é tão útil nessa métrica em relação aos testes de hipóteses tradicionais e por que devo me preocupar com isso? Para mim, parece nada mais que uma estatística de teste para um teste duas amostras . Eu não acho isso útil, além de talvez colocar tudo na mesma escala (é por isso que alguém realmente "normaliza" alguma coisa), mas eu pensei que as estatísticas dos testes (que é o tamanho do efeito que me parece) estavam fora de moda , e valores- são preferidos.
fonte
Respostas:
Essa é uma medida do tamanho do efeito, mas existem muitas outras. Certamente não é a estatística do teste . Sua medida do tamanho do efeito costuma ser chamada de d de Cohen (estritamente falando, isso é correto apenas se o DP for estimado através do MLE - isto é, sem a correção de Bessel ); mais genericamente, é chamada de "diferença média padronizada". Talvez isso irá torná-lo mais claro que t ≠ d : dt d t ≠ d
Ou seja, o "/√
De maneira mais geral, tirar o tamanho da amostra do valor fornece informações reais. Supondo que o efeito verdadeiro não seja exatamente a infinitas casas decimais, você pode obter qualquer nível de significância que desejar com N suficiente . O valor- p fornece informações sobre quão confiantes podemos estar em rejeitar a hipótese nula, mas o faz confluindo o tamanho do efeito com a quantidade de dados que você possui. É certamente bom saber se devemos rejeitar a hipótese nula, mas também seria bom saber se o efeito da sua intervenção educativa produz grandes ganhos para os estudantes ou é trivial e só foi significativa devido à grande N .0 0 N p N
fonte
Espero que alguém com experiência em uma área mais relevante (por exemplo, psicologia ou educação) entre em contato com uma resposta melhor, mas vou tentar.
" Tamanho do efeito " é um termo com mais de um significado - que muitos anos atrás levou algumas conversas confusas até que finalmente cheguei a essa conclusão. Aqui, estamos claramente lidando com a versão de desvio padrão para escala ("quantos desvios padrão isso mudou?")
Parte da razão para observar esse tipo de "tamanho do efeito" nas áreas de assunto em que são comuns é que eles frequentemente têm variáveis cujos valores específicos não são inerentemente significativos, mas são construídos para tentar medir algo subjacente que é difícil de obter. às.
Por exemplo, imagine que você está tentando medir a satisfação no trabalho (talvez para um modelo que o relacione com algum conjunto de variáveis independentes, talvez incluindo algum tratamento de interesse, por exemplo). Você não tem como abordá-lo diretamente, mas você pode (por exemplo) tentar criar um questionário para abordar aspectos diferentes dele, talvez usando algo como uma escala Likert.
Um pesquisador diferente pode ter uma abordagem diferente para medir a satisfação no trabalho e, portanto, seus dois conjuntos de medidas de "Satisfação" não são diretamente comparáveis - mas se eles tiverem várias formas de validade e assim por diante, essas coisas serão verificadas (para que eles podem razoavelmente estar medindo a satisfação); então, espera-se que eles tenham tamanhos de efeito muito semelhantes; no menor tamanho de efeito será mais quase comparável.
fonte
A fórmula acima é como você calcula o d de Cohen para amostras relacionadas (que provavelmente é o que você tem?). Se elas não estão relacionadas, é possível usar a variação combinada. Existem estatísticas diferentes que informarão sobre o tamanho do efeito, mas o d de Cohen é uma medida padronizada que pode variar entre 0 e 3. Se você tiver muitas variáveis diferentes, pode ser bom ter uma medida padronizada quando estiver pensando em todos juntos. Por outro lado, muitas pessoas preferem entender o tamanho do efeito em termos das unidades que estão sendo medidas. Por que calcular d quando você já possui valores de p? Aqui está um exemplo de um conjunto de dados com o qual estou trabalhando atualmente. Eu estou olhando para uma intervenção comportamental conduzida nas escolas, medida usando questionários psicológicos validados (produzindo dados do Likert). Quase todas as minhas variáveis mostram mudanças estatisticamente significativas, talvez sem surpresa, pois tenho uma amostra grande (n = ~ 250). No entanto, para algumas das variáveis, o valor dé bastante minúsculo, digamos 0,12, o que indica que, embora certamente haja mudanças, ela pode não ser uma mudança clinicamente importante e, por isso, é importante para a discussão e interpretação do que está acontecendo nos dados. Esse conceito é amplamente usado em psicologia e ciências da saúde, onde os profissionais (ou escolas, no seu caso) precisam considerar a utilidade clínica real dos tratamentos (ou o que quer que estejam experimentando). O d de Cohen nos ajuda a responder perguntas sobre se realmente vale a pena fazer uma intervenção (independentemente dos valores de p). Nas ciências médicas, eles também gostam de considerar o NNT e avaliar isso em termos da gravidade da condição em questão. Dê uma olhada neste excelente recurso em @krstoffr http://rpsychologist.com/d3/cohend/
fonte
fonte
De fato, agora os valores-p também estão "fora de moda": http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . O teste de significância de hipótese nula (NHST) produz pouco mais do que uma descrição do tamanho da sua amostra. (*) Qualquer intervenção experimental terá algum efeito, ou seja, que a hipótese nula simples de 'sem efeito' é sempre falsa em sentido estrito. . Portanto, um teste "não significativo" significa simplesmente que o tamanho da sua amostra não era grande o suficiente; um teste "significativo" significa que você coletou dados suficientes para "encontrar" algo.
O 'tamanho do efeito' representa uma tentativa de remediar isso, introduzindo uma medida na escala natural do problema. Na medicina, onde os tratamentos sempre têm algum efeito (mesmo que seja um efeito placebo), a noção de um 'efeito clinicamente significativo' é introduzida para proteger contra a probabilidade anterior de 50% de um 'tratamento' ter 'a ( estatisticamente) efeito positivo significativo '(ainda que minúsculo) em um estudo arbitrariamente grande.
Se eu entendo a natureza do seu trabalho, clarinetista, no final do dia, seu objetivo legítimo é informar ações / intervenções que melhorem a educação nas escolas sob seu alcance. Assim, seu cenário é teórico da decisão , e os métodos bayesianos são a abordagem mais apropriada (e exclusivamente coerente [1] ).
De fato, a melhor maneira de entender os métodos freqüentistas é como aproximações aos métodos bayesianos . O tamanho estimado do efeito pode ser entendido como uma medida de centralidade para a distribuição posterior bayesiana , enquanto o valor p pode ser entendido como uma medida da cauda posterior. Assim, juntas , essas duas grandezas contêm uma essência grosseira do posterior bayesiano que constitui a contribuição natural para uma perspectiva teórica da decisão sobre o seu problema. (Como alternativa, um intervalo de confiança freqüentista no tamanho do efeito pode ser entendido da mesma forma como um intervalo de credibilidade pretendido .)
Nos campos da psicologia e da educação, os métodos bayesianos são realmente bastante populares. Uma razão para isso é que é fácil instalar 'construções' nos modelos bayesianos, como variáveis latentes. Você pode conferir o 'livro dos filhotes' de John K. Kruschke , um psicólogo. Na educação (onde você tem alunos aninhados em salas de aula, aninhados em escolas, aninhados em distritos, ...), a modelagem hierárquica é inevitável. E os modelos bayesianos também são ótimos para modelagem hierárquica. Nesta conta, você pode conferir Gelman & Hill [2].
[1]: Robert, Christian P. A escolha bayesiana: dos fundamentos teóricos à decisão à implementação computacional. 2nd ed. Springer Textos em Estatística. Nova York: Springer, 2007.
[2]: Gelman, Andrew e Jennifer Hill. Análise de dados usando regressão e modelos multiníveis / hierárquicos. Métodos Analíticos para Pesquisa Social. Cambridge; Nova York: Cambridge University Press, 2007.
Para mais informações sobre "coerência" de uma perspectiva de não bater necessariamente na cabeça com um tijolo bayesiano , consulte [3].
[3]: Robins, James e Larry Wasserman. "Condicionamento, probabilidade e coerência: uma revisão de alguns conceitos fundamentais." Jornal da Associação Estatística Americana 95, no. 452 (1 de dezembro de 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.
(*) Em [4], Meehl flagela o NHST de maneira muito mais elegante, mas não menos abrasiva, do que eu:
[4]: Meehl, Paul E. "Riscos teóricos e asteriscos tabulares: Sir Karl, Sir Ronald e o lento progresso da psicologia branda". Journal of Consulting and Clinical Psychiatry 46 (1978): 806-34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
E aqui está uma citação relacionada de Tukey: /stats//a/728/41404
fonte