Concluí minha análise de dados e obtive "resultados estatisticamente significativos", o que é consistente com minha hipótese. No entanto, um estudante de estatística me disse que esta é uma conclusão prematura. Por quê? É necessário incluir mais alguma coisa no meu relatório?
46
Respostas:
Teste de hipóteses versus estimativa de parâmetros
Normalmente, as hipóteses são estruturadas de maneira binária. Vou colocar hipóteses direcionais de lado, pois elas não mudam muito a questão. É comum, pelo menos em psicologia, falar de hipóteses como: a diferença entre médias de grupo é ou não é zero; a correlação é ou não é zero; o coeficiente de regressão é ou não é zero; o quadrado r é ou não é zero. Em todos esses casos, existe uma hipótese nula de nenhum efeito e uma hipótese alternativa de um efeito.
Esse pensamento binário geralmente não é o que mais interessa. Quando você pensa na sua pergunta de pesquisa, quase sempre descobre que está realmente interessado em estimar parâmetros. Você está interessado na diferença real entre médias de grupo, ou o tamanho da correlação, ou o tamanho do coeficiente de regressão, ou a quantidade de variação explicada.
Obviamente, quando obtemos uma amostra de dados, a estimativa amostral de um parâmetro não é a mesma que o parâmetro populacional. Portanto, precisamos de uma maneira de quantificar nossa incerteza sobre qual pode ser o valor do parâmetro. De uma perspectiva freqüentista, os intervalos de confiança fornecem um meio de fazer, embora os puristas bayesianos possam argumentar que eles não permitem estritamente a inferência que você pode querer fazer. De uma perspectiva bayesiana, intervalos credíveis nas densidades posteriores fornecem um meio mais direto de quantificar sua incerteza sobre o valor de um parâmetro populacional.
Parâmetros / tamanhos de efeito
Afastar-se da abordagem de teste de hipótese binária força você a pensar de maneira contínua. Por exemplo, que diferença de tamanho em médias de grupo seria teoricamente interessante? Como você mapearia a diferença entre as médias do grupo em linguagem subjetiva ou implicações práticas? Medidas padronizadas de efeito, juntamente com normas contextuais, são uma maneira de construir uma linguagem para quantificar o que significam diferentes valores de parâmetros. Tais medidas são frequentemente rotuladas como "tamanhos de efeito" (por exemplo, d, r, Cohen , etc.). No entanto, é perfeitamente razoável, e geralmente preferível, falar sobre a importância de um efeito usando medidas não padronizadas (por exemplo, a diferença de grupo significa em variáveis não padronizadas significativas, como níveis de renda, expectativa de vida, etc.).R2
Há uma enorme literatura em psicologia (e outros campos) criticando o foco em valores-p, testes de significância de hipóteses nulas e assim por diante (consulte esta pesquisa no Google Scholar ). Essa literatura geralmente recomenda o tamanho dos efeitos do relatório com intervalos de confiança como uma resolução (por exemplo, força-tarefa da APA de Wilkinson, 1999).
Etapas para se afastar do teste de hipótese binária
Se você está pensando em adotar esse pensamento, acho que existem abordagens progressivamente mais sofisticadas que você pode adotar:
Entre muitas referências possíveis, você verá Andrew Gelman falando muito sobre essas questões em seu blog e em sua pesquisa.
Referências
fonte
Apenas para adicionar às respostas existentes (que são ótimas, a propósito). É importante estar ciente de que a significância estatística é uma função do tamanho da amostra .
Quando você obtém mais e mais dados, pode encontrar diferenças estatisticamente significativas onde quer que esteja. Quando a quantidade de dados é enorme, até os menores efeitos podem levar à significância estatística. Isso não implica que os efeitos sejam significativos de maneira prática.
Ao testar diferenças, apenas os valores de não são suficientes porque o tamanho do efeito necessário para produzir um resultado estatisticamente significativo diminui com o aumento do tamanho da amostra . Na prática, a questão real é geralmente se existe um efeito de um determinado tamanho mínimo (para ser relevante). Quando as amostras se tornam muito grandes, os valores de tornam-se quase sem sentido ao responder à pergunta real .pp p
fonte
Se houvesse uma base razoável para suspeitar que sua hipótese pudesse ser verdadeira antes de você executar seu estudo; e você realizou um bom estudo (por exemplo, não induziu nenhum conflito); e seus resultados foram consistentes com sua hipótese e estatisticamente significativos; então eu acho que você está bem, na medida do possível.
No entanto, você não deve pensar que o significado é tudo o que é importante em seus resultados. Primeiro, você deve examinar também o tamanho do efeito (veja minha resposta aqui: Tamanho do efeito como hipótese para teste de significância ). Você também pode explorar um pouco seus dados e ver se encontra surpresas potencialmente interessantes que valem a pena acompanhar.
fonte
Antes de relatar isso e isso e isso e isso, comece formulando o que deseja aprender com os dados experimentais. O principal problema dos testes de hipóteses habituais (esses testes que aprendemos na escola ...) não é a binariedade: o principal problema é que esses são testes para hipóteses que não são hipóteses de interesse. Veja o slide 13 aqui (faça o download do pdf para apreciar as animações). Sobre os tamanhos dos efeitos, não há uma definição geral dessa noção . Sinceramente, eu não recomendaria usar isso para estatísticos não especialistas, essas são medidas técnicas, não naturais, de "efeito". Sua hipótese de interesse deve ser formulada em termos compreensíveis pelos leigos.
fonte
Estou longe de ser um especialista em estatística, mas uma coisa que foi enfatizada nos cursos de estatística que fiz até hoje é a questão do "significado prático". Acredito que isso alude ao que Jeromy e Gung estão falando quando se referem ao "tamanho do efeito".
Tivemos um exemplo na aula de uma dieta de 12 semanas que apresentou resultados estatisticamente significativos de perda de peso, mas o intervalo de confiança de 95% mostrou uma perda de peso média entre 0,2 e 1,2 kg (OK, provavelmente os dados foram elaborados, mas isso ilustra um ponto) . Embora "estatisticamente significativamente" "seja diferente de zero, uma perda de peso de 200 gramas ao longo de 12 semanas é um resultado" praticamente significativo "para uma pessoa com excesso de peso que tenta ficar saudável?
fonte
É impossível responder com precisão sem conhecer mais detalhes do seu estudo e as críticas da pessoa. Mas aqui está uma possibilidade: se você executou vários testes e optou por se concentrar no que saiu
p<0.05
e ignora os outros, esse "significado" foi diluído pelo fato de sua atenção seletiva a ele. Como uma bomba de intuição para isso, lembre-se quep=0.05
significa "esse resultado aconteceria por acaso (apenas) 5% das vezes, mesmo que a hipótese nula seja verdadeira". Portanto, quanto mais testes você executar, maior a probabilidade de que pelo menos um deles seja um resultado "significativo" apenas por acaso - mesmo se não houver efeito lá. Veja http://en.wikipedia.org/wiki/Multiple_comparisons e http://en.wikipedia.org/wiki/Post-hoc_analysisfonte
Eu sugiro que você leia o seguinte:
Anderson, DR, Burnham, KP, Thompson, WL, 2000. Teste de hipótese nula: Problemas, prevalência e uma alternativa. J. Wildl. Gerir. 64, 912-923. Gigerenzer, G., 2004. Estatísticas irracionais. Journal of Socio-Economics 33, 587-606. Johnson, DH, 1999. The Insignificance of Statistical Significance Testing. O Journal of Wildlife Management 63, 763-772.
Hipóteses nulas raramente são interessantes no sentido de que, a partir de qualquer experimento ou conjunto de observações, existem dois resultados: rejeitar corretamente o nulo ou cometer um erro do tipo II. O tamanho do efeito é o que você provavelmente é interessante para determinar e, uma vez feito, você deve produzir intervalos de confiança para esse tamanho de efeito.
fonte