Por que “estatisticamente significativo” não é suficiente?

46

Concluí minha análise de dados e obtive "resultados estatisticamente significativos", o que é consistente com minha hipótese. No entanto, um estudante de estatística me disse que esta é uma conclusão prematura. Por quê? É necessário incluir mais alguma coisa no meu relatório?

hypothesis-testing statistical-significance spss p-value Jim Von
fonte

4

Depende muito do que você quer dizer com "obteve resultados estatisticamente significativos consistentes com a hipótese". Se sua hipótese é que o vento é produzido pelas árvores e seu experimento mostra que em 100% das observações quando as árvores estavam movendo seus galhos, havia vento, você o considera estatisticamente significativo e pronto, sua conclusão é comprovada. O que está obviamente errado. Portanto, esse pode ser um desses casos.

Sashkello

1

Você realmente precisaria de um estudo de acompanhamento para declarar com segurança uma "descoberta significativa" com credibilidade - usando uma coleta de dados bem projetada, o mesmo modelo e o mesmo teste de hipótese. Além disso, você precisa garantir que o conjunto de dados atual representa o "população em geral" você está fazendo uma afirmação sobre uma descoberta significativa (este é um problema chave para inferência com "big data")

probabilityislogic

1

Certamente a resposta é tão simples quanto "correlação não é causalidade"?

fracionário

1

Aqui está o meu favorito : pessoas que comem mais arroz geram mais filhos. Verificar a toda população mundial, você vai obter resultados estatisticamente signifcativas ...

Karoly Horvath

4

Ótimas respostas, mas estou surpreso que ninguém tenha sugerido a solução óbvia: pergunte a ele / ela. Sempre que alguém lhe disser que você está errado sobre o seu trabalho ou qualquer outra coisa com a qual você se preocupe, basta perguntar. Dizer a alguém que ele está errado porque X, ye Z é legal - é uma oportunidade de aprendizado. Mas apenas dizer a alguém que ele está errado e sair correndo é um golpe de pau.

Sylverdrag

53

Teste de hipóteses versus estimativa de parâmetros

Normalmente, as hipóteses são estruturadas de maneira binária. Vou colocar hipóteses direcionais de lado, pois elas não mudam muito a questão. É comum, pelo menos em psicologia, falar de hipóteses como: a diferença entre médias de grupo é ou não é zero; a correlação é ou não é zero; o coeficiente de regressão é ou não é zero; o quadrado r é ou não é zero. Em todos esses casos, existe uma hipótese nula de nenhum efeito e uma hipótese alternativa de um efeito.

Esse pensamento binário geralmente não é o que mais interessa. Quando você pensa na sua pergunta de pesquisa, quase sempre descobre que está realmente interessado em estimar parâmetros. Você está interessado na diferença real entre médias de grupo, ou o tamanho da correlação, ou o tamanho do coeficiente de regressão, ou a quantidade de variação explicada.

Obviamente, quando obtemos uma amostra de dados, a estimativa amostral de um parâmetro não é a mesma que o parâmetro populacional. Portanto, precisamos de uma maneira de quantificar nossa incerteza sobre qual pode ser o valor do parâmetro. De uma perspectiva freqüentista, os intervalos de confiança fornecem um meio de fazer, embora os puristas bayesianos possam argumentar que eles não permitem estritamente a inferência que você pode querer fazer. De uma perspectiva bayesiana, intervalos credíveis nas densidades posteriores fornecem um meio mais direto de quantificar sua incerteza sobre o valor de um parâmetro populacional.

Parâmetros / tamanhos de efeito

Afastar-se da abordagem de teste de hipótese binária força você a pensar de maneira contínua. Por exemplo, que diferença de tamanho em médias de grupo seria teoricamente interessante? Como você mapearia a diferença entre as médias do grupo em linguagem subjetiva ou implicações práticas? Medidas padronizadas de efeito, juntamente com normas contextuais, são uma maneira de construir uma linguagem para quantificar o que significam diferentes valores de parâmetros. Tais medidas são frequentemente rotuladas como "tamanhos de efeito" (por exemplo, d, r, Cohen , etc.). No entanto, é perfeitamente razoável, e geralmente preferível, falar sobre a importância de um efeito usando medidas não padronizadas (por exemplo, a diferença de grupo significa em variáveis não padronizadas significativas, como níveis de renda, expectativa de vida, etc.). $R^2$

Há uma enorme literatura em psicologia (e outros campos) criticando o foco em valores-p, testes de significância de hipóteses nulas e assim por diante (consulte esta pesquisa no Google Scholar ). Essa literatura geralmente recomenda o tamanho dos efeitos do relatório com intervalos de confiança como uma resolução (por exemplo, força-tarefa da APA de Wilkinson, 1999).

Etapas para se afastar do teste de hipótese binária

Se você está pensando em adotar esse pensamento, acho que existem abordagens progressivamente mais sofisticadas que você pode adotar:

Abordagem 1a. Relate a estimativa pontual do seu efeito amostral (por exemplo, diferenças médias do grupo) em termos brutos e padronizados. Quando você relatar seus resultados, discuta o que essa magnitude significaria para a teoria e a prática.
Abordagem 1b. Adicione a 1a, pelo menos em um nível muito básico, um pouco da incerteza em torno da estimativa de parâmetros com base no tamanho da amostra.
Abordagem 2. Informe também os intervalos de confiança nos tamanhos dos efeitos e incorpore essa incerteza ao seu pensamento sobre os valores plausíveis do parâmetro de interesse.
Abordagem 3. Relate intervalos credíveis bayesianos e examine as implicações de várias suposições nesse intervalo credível, como a escolha do anterior, o processo de geração de dados implícito no seu modelo e assim por diante.

Entre muitas referências possíveis, você verá Andrew Gelman falando muito sobre essas questões em seu blog e em sua pesquisa.

Referências

Nickerson, RS (2000). Teste de significância de hipótese nula: uma revisão de uma controvérsia antiga e contínua. Métodos psicológicos, 5 (2), 241.
Wilkinson, L. (1999). Métodos estatísticos em periódicos de psicologia: orientações e explicações. Psicólogo americano, 54 (8), 594. PDF

Jeromy Anglim
fonte

12

Além do comentário de Jeromy, posso recomendar que você leia o ensaio de Ziliac e McCloskey sobre o culto à significância estatística. Não é a estatística mais impressionante, mas fornece uma discussão ponderada - e divertida - sobre por que os tamanhos dos efeitos, o significado prático e as funções de perda são extremamente importantes. deirdremccloskey.com/docs/jsm.pdf

Jim

Acho que às vezes p deve ser menor que 0,05. Obrigado a todos: gung, Jeromy e Jim

Jim Von

1

Em Ziliak [NB] e McCloskey: Se você estiver ocupado, leia phil.vt.edu/dmayo/personal_website/… primeiro. Se você não estiver ocupado, leia-o primeiro.

Nick Cox

De nada, @JimVon. FWIW, às vezes acho que p deve ser maior que 0,05. Depende apenas.

gung - Restabelece Monica

1

Fico feliz em ver o Dr. Gelman ser nomeado aqui. Aparentemente, ele nem gosta de relatar valores-p, muito menos usá-los para inferência séria. Ele também faz um bom argumento para padronizar todas as suas variáveis, como é óbvio.

shadowtalker

26

Apenas para adicionar às respostas existentes (que são ótimas, a propósito). É importante estar ciente de que a significância estatística é uma função do tamanho da amostra .

Quando você obtém mais e mais dados, pode encontrar diferenças estatisticamente significativas onde quer que esteja. Quando a quantidade de dados é enorme, até os menores efeitos podem levar à significância estatística. Isso não implica que os efeitos sejam significativos de maneira prática.

Ao testar diferenças, apenas os valores de não são suficientes porque o tamanho do efeito necessário para produzir um resultado estatisticamente significativo diminui com o aumento do tamanho da amostra . Na prática, a questão real é geralmente se existe um efeito de um determinado tamanho mínimo (para ser relevante). Quando as amostras se tornam muito grandes, os valores de tornam-se quase sem sentido ao responder à pergunta real . $p$ $p$

Marc Claesen
fonte

Este é o ponto abordado no meu slide 13 :)

Stéphane Laurent

6

+1 para isso. As pessoas que não percebem o significado são uma função do tamanho da amostra, me deixa louca.

Fomite

12

Se houvesse uma base razoável para suspeitar que sua hipótese pudesse ser verdadeira antes de você executar seu estudo; e você realizou um bom estudo (por exemplo, não induziu nenhum conflito); e seus resultados foram consistentes com sua hipótese e estatisticamente significativos; então eu acho que você está bem, na medida do possível.

No entanto, você não deve pensar que o significado é tudo o que é importante em seus resultados. Primeiro, você deve examinar também o tamanho do efeito (veja minha resposta aqui: Tamanho do efeito como hipótese para teste de significância ). Você também pode explorar um pouco seus dados e ver se encontra surpresas potencialmente interessantes que valem a pena acompanhar.

- Reinstate Monica
fonte

Você quer dizer que a hipótese deve ser razoável? E como julgar se minha hipótese levará à análise de dados sem sentido? “Surpresas potencialmente interessantes” devem ser reveladas pelo Post-hoc?

Jim Von

O que quero dizer é que, presumivelmente, havia alguma razão legítima para executar o estudo em primeiro lugar. O conhecimento teórico atual e / ou estudos recentes sugeriram que sua hipótese pode ser verdadeira. É improvável que sua hipótese "leve à análise de dados sem sentido", a menos que seja incoerente. As surpresas / características potencialmente interessantes dos seus dados podem muito bem ser descobertas post-hoc; o fato de serem surpresas implica que você não sabia que elas ocorreriam quando você planejou o estudo. A questão sobre "post-hoc" é acreditar nas surpresas - elas precisam ser confirmadas por pesquisas futuras.

gung - Restabelece Monica

7

Antes de relatar isso e isso e isso e isso, comece formulando o que deseja aprender com os dados experimentais. O principal problema dos testes de hipóteses habituais (esses testes que aprendemos na escola ...) não é a binariedade: o principal problema é que esses são testes para hipóteses que não são hipóteses de interesse. Veja o slide 13 aqui (faça o download do pdf para apreciar as animações). Sobre os tamanhos dos efeitos, não há uma definição geral dessa noção . Sinceramente, eu não recomendaria usar isso para estatísticos não especialistas, essas são medidas técnicas, não naturais, de "efeito". Sua hipótese de interesse deve ser formulada em termos compreensíveis pelos leigos.

Stéphane Laurent
fonte

1

Uma pequena adição - a hipótese nula deve realmente significar algo fora do contexto da análise de dados atual para a aplicação do HT padrão. Não deve ser "inventado" para que você tenha algo a rejeitar em favor de sua teoria / descoberta.

probabilityislogic

2

Estou longe de ser um especialista em estatística, mas uma coisa que foi enfatizada nos cursos de estatística que fiz até hoje é a questão do "significado prático". Acredito que isso alude ao que Jeromy e Gung estão falando quando se referem ao "tamanho do efeito".

Tivemos um exemplo na aula de uma dieta de 12 semanas que apresentou resultados estatisticamente significativos de perda de peso, mas o intervalo de confiança de 95% mostrou uma perda de peso média entre 0,2 e 1,2 kg (OK, provavelmente os dados foram elaborados, mas isso ilustra um ponto) . Embora "estatisticamente significativamente" "seja diferente de zero, uma perda de peso de 200 gramas ao longo de 12 semanas é um resultado" praticamente significativo "para uma pessoa com excesso de peso que tenta ficar saudável?

kesahli
fonte

Este é o ponto após o meu slide 13 :)

Stéphane Laurent

2

Este também é um exemplo de teste da hipótese nula "errada". Não é a conclusão que você está interessado. Um teste de hipótese melhor seria que a perda de peso é menor que 5 kg vs maior que 5 kg.

probabilityislogic

1

É impossível responder com precisão sem conhecer mais detalhes do seu estudo e as críticas da pessoa. Mas aqui está uma possibilidade: se você executou vários testes e optou por se concentrar no que saiu p<0.05e ignora os outros, esse "significado" foi diluído pelo fato de sua atenção seletiva a ele. Como uma bomba de intuição para isso, lembre-se que p=0.05significa "esse resultado aconteceria por acaso (apenas) 5% das vezes, mesmo que a hipótese nula seja verdadeira". Portanto, quanto mais testes você executar, maior a probabilidade de que pelo menos um deles seja um resultado "significativo" apenas por acaso - mesmo se não houver efeito lá. Veja http://en.wikipedia.org/wiki/Multiple_comparisons e http://en.wikipedia.org/wiki/Post-hoc_analysis

jez
fonte

0

Eu sugiro que você leia o seguinte:

Anderson, DR, Burnham, KP, Thompson, WL, 2000. Teste de hipótese nula: Problemas, prevalência e uma alternativa. J. Wildl. Gerir. 64, 912-923. Gigerenzer, G., 2004. Estatísticas irracionais. Journal of Socio-Economics 33, 587-606. Johnson, DH, 1999. The Insignificance of Statistical Significance Testing. O Journal of Wildlife Management 63, 763-772.

Hipóteses nulas raramente são interessantes no sentido de que, a partir de qualquer experimento ou conjunto de observações, existem dois resultados: rejeitar corretamente o nulo ou cometer um erro do tipo II. O tamanho do efeito é o que você provavelmente é interessante para determinar e, uma vez feito, você deve produzir intervalos de confiança para esse tamanho de efeito.

Tom
fonte

Por que “estatisticamente significativo” não é suficiente?

Respostas:

Teste de hipóteses versus estimativa de parâmetros

Parâmetros / tamanhos de efeito

Etapas para se afastar do teste de hipótese binária

Referências