Essa é a solução para o problema do valor-p?

67

Em fevereiro de 2016, a American Statistical Association divulgou uma declaração formal sobre significância estatística e valores de p. Nosso tópico sobre o assunto discute esses problemas extensivamente. No entanto, nenhuma autoridade surgiu para oferecer uma alternativa eficaz universalmente reconhecida - até agora. A American Statistical Society (ASS) publicou sua resposta, valores-p: o que vem a seguir?

"O valor p não é bom para muita coisa."

Achamos que o ASA não foi suficientemente longe. É hora de admitir que a era dos valores-p acabou. Os estatísticos os usaram com sucesso para confundir estudantes de graduação, enganar cientistas e editores tolos em todos os lugares, mas o mundo está começando a entender esse truque. Precisamos abandonar essa tentativa do estatístico do início do século XX de controlar a tomada de decisão. Precisamos voltar ao que realmente funciona.

A proposta oficial da ASS é a seguinte:

No lugar dos valores-p, o ASS defende o STOP (procedimento SeaT-Of-Pants). Esse método consagrado pelo tempo e testado foi usado pelos antigos gregos, homens renascentistas e todos os cientistas até Ronald Fisher aparecer e arruinar as coisas. O STOP é simples, direto, orientado a dados e autoritário. Para realizá-lo, uma figura de autoridade (um homem mais velho, de preferência) revisa os dados e decide se eles concordam com sua opinião. Quando ele decide que sim, o resultado é "significativo". Caso contrário, não é e todos devem esquecer a coisa toda.

Princípios

A resposta aborda cada um dos seis princípios da ASA.

  1. O STOP pode indicar o quão incompatíveis os dados são com um modelo estatístico especificado.

    Gostamos dessa frase porque é uma maneira elegante de dizer que o STOP responderá a qualquer pergunta sim ou não. Ao contrário dos valores-p ou de outros procedimentos estatísticos, não deixa dúvidas. É a resposta perfeita para aqueles que dizem “não precisamos de nenhuma hipótese nula fedorenta! Mas que merda é essa? Ninguém jamais conseguiu descobrir o que deveria ser.

  2. O STOP não mede a probabilidade de uma hipótese ser verdadeira: na verdade, decide se é verdadeira ou não.

    Todo mundo está confuso com as probabilidades. Tirando a probabilidade de fora de cena, o STOP elimina a necessidade de anos de estudos de graduação e pós-graduação. Agora, qualquer pessoa (suficientemente velha e masculina) pode realizar análises estatísticas sem a dor e a tortura de ouvir até uma única palestra estatística ou executar um software misterioso que produz resultados ininteligíveis.

  3. Conclusões científicas e decisões de negócios ou políticas podem se basear no senso comum e em figuras reais de autoridade.

    De qualquer forma, decisões importantes sempre foram tomadas pelas autoridades, então vamos apenas admitir e eliminar os intermediários. O uso do STOP liberará os estatísticos para fazer o que eles são mais adequados: usar números para ofuscar a verdade e santificar as preferências daqueles que estão no poder.

  4. Inferência adequada requer relatórios completos e transparência.

    O STOP é o procedimento estatístico mais transparente e evidente que já foi inventado: você olha os dados e decide. Ele elimina todos os confusos testes z, testes t, testes qui-quadrado e sopa de letrinhas (ANOVA! GLM! MLE!) Usados ​​pelas pessoas para esconder o fato de que elas não têm idéia do significado dos dados.

  5. O STOP mede a importância do resultado.

    Isso é evidente: se uma pessoa com autoridade emprega o STOP, o resultado deve ser importante.

  6. Por si só, o STOP fornece uma boa medida de evidência a respeito de um modelo ou hipótese.

    Não queremos desafiar uma autoridade, queremos? Pesquisadores e tomadores de decisão reconhecerão que o STOP fornece todas as informações que eles precisam saber. Por esses motivos, a análise de dados pode terminar com o STOP; não há necessidade de abordagens alternativas, como valores-p, aprendizado de máquina ou astrologia.

Outras abordagens

Alguns estatísticos preferem os chamados métodos “bayesianos”, nos quais um teorema obscuro publicado postumamente por um clérigo do século 18 é aplicado sem pensar para resolver todos os problemas. Seus advogados mais destacados admitem livremente que esses métodos são "subjetivos". Se vamos usar métodos subjetivos, obviamente, quanto mais autoritário e conhecedor for o tomador de decisão, melhor será o resultado. O STOP surge assim como o limite lógico de todos os métodos de Bayes. Por que se esforçar para fazer esses cálculos terríveis e dedicar tanto tempo ao computador, quando você pode simplesmente mostrar os dados ao responsável e perguntar qual é a opinião dele? Fim da história.

Outra comunidade surgiu recentemente para desafiar o sacerdócio de estatísticos. Eles se autodenominam "aprendizes de máquina" e "cientistas de dados", mas na verdade são apenas hackers que buscam status mais alto. É a posição oficial do ASS que esses caras devem formar sua própria organização profissional se quiserem que as pessoas os levem a sério.


A questão

Essa é a resposta para os problemas que o ASA identificou com valores-p e teste de hipótese nula? Pode realmente unir os paradigmas Bayesiano e Frequentista (como implicitamente reivindicado na resposta)?

whuber
fonte
11
"Donald Trump como juiz supremo do STOP ASS: torne as estatísticas ótimas novamente!"
Alex R.
14
Claramente STOP é um procedimento subótimo. Estou surpreso que isso tenha escapado de uma organização tão estimada de estudiosos como o ASS. A saber, por que perder tempo olhando para os dados em tudo ? Simplesmente dê sua resposta sim / não. Essa metodologia já está em uso no momento com grande efeito. Os estudos de caso são abundantes, principalmente nos Estados Unidos durante os anos divisíveis por 4.
cardeal
4
Eu acho que as empresas também poderiam se beneficiar enormemente da adoção desses métodos, já que não precisariam mais arcar com o alto custo de contratar pessoas para analisar seus dados.
dsaxton
4
@henry Como se a tag [abril-1] não nos dissesse isso?
Glen_b
9
@ Henry Sério? Você pode nos mostrar uma organização falsa que recebe mais de um quarto de milhão de acessos quando usa o nome no Google?
whuber

Respostas:

18

Eu tenho vindo a defender para a minha própria nova abordagem para a tomada de decisão estatística chamada RADD: R oll A D amn D ie. Ele também aborda todos os pontos principais.

1) RADD pode indicar a compatibilidade dos dados com um modelo estatístico especificado.

Se você rolar um número maior, claramente as evidências são mais favoráveis ​​ao seu modelo! Um benefício extra é que, se desejarmos ainda mais confiança, podemos rolar um dado com mais lados. Você pode até encontrar dados de 100 lados se pesquisar o suficiente!

2) RADD pode decidir se uma hipótese é verdadeira ou não.

Você só precisa rolar um dado de 2 lados, ou seja, jogar uma moeda.

3) RADD pode ser usado para tomar decisões de negócios ou políticas

Coloque um monte de formuladores de políticas em uma sala e faça com que todos joguem dados! Maiores vitórias!

4) RADD é transparente.

O resultado pode ser registrado e o próprio dado pode ser mantido para pesquisas adicionais *

5) RADD mede a importância do resultado.

Obviamente, subir mais alto significa que um evento muito importante ocorreu.

6) RADD fornece uma boa medida de evidência.

Não dissemos que rolos maiores são melhores?

Então, não, STOP não é a resposta. A resposta é RADD.

Matthew Drury
fonte
7
Para não esquecer, ele pode garantir o controle de erros do tipo I (em qualquer nível desejado, dado um dado com lados suficientes), por exemplo, rejeitando apenas uma hipótese nula quando um dos 5 lados com o número mais alto de dados com 100 lados aparecer para alcançar uma taxa de erro de 5% do tipo I.
Björn
17

p-valores e outros métodos frequentistas ou bayesianos. Da perspectiva dos negócios, o STOP fornece respostas simples e definitivas, o que o torna mais confiável do que os métodos "probabilísticos" incertos. Além disso, na grande maioria dos casos, é mais simples de implementar e mais fácil de se adaptar às mudanças da realidade do que outros métodos. As decisões Sim / Não são mais convincentes para a gerência média e sênior. Os "relatórios STOP" na maioria dos casos são mais curtos e fáceis de ler do que os baseados em dados. Além disso, a adoção desse método permite que seu empregador reduza custos com cientistas de dados e licenças SAS. Eu diria que o único problema com o STOP é que é mais difícil fazer a apresentação do PowerPoint apresentar os resultados do STOP, mas esse é um campo em desenvolvimento dinâmico, portanto, no futuro, poderão ser propostos melhores métodos de visualização.

Tim
fonte
6
Depois que os slides do PowerPoint com a conclusão são informados, é tarde demais para alterá-lo; portanto, existem duas opções: adequar a análise à conclusão ou não se incomodar em fazer a análise.
Mark L. Stone
12
@ MarkL.Stone Claro! Pessoalmente, gosto da ideia de fazer gráficos para a apresentação antes de ver os dados, a idéia está enraizada no pensamento bayesiano e os chamo de gráficos a priori :) Acho que essa abordagem apareceu pela primeira vez impressa aqui: dilbert.com/strip/ 08-05-2008
Tim
15

Esse excelente complemento ao debate sobre o valor-p, interessante, mas também um tanto obsoleto na minha opinião, me lembra um artigo único publicado há alguns anos na edição de Natal do British Medical Journal (BMJ), que todo Natal publica pesquisas reais, mas engraçadas artigos. Em particular, este trabalho de Isaacs e Fitzgerald destacou sete alternativas principais para a medicina baseada em evidências (ou seja, a prática da medicina baseada em evidências clínicas e estatísticas reais):

  • Medicina baseada em eminências
  • Medicina baseada em veemência
  • Medicina baseada em eloquência
  • Medicina baseada em providência
  • Medicina baseada em evidências
  • Medicina baseada em nervosismo
  • Medicina baseada na confiança

O mais interessante é que você deve observar as colunas que destacam os dispositivos de medição e as unidades de medida dos itens acima (por exemplo, audiômetro e decibéis para medicamentos baseados em veemência!).

Giuseppe Biondi-Zoccai
fonte
4
+1. Obrigado por uma contribuição esplêndida, perfeitamente dentro do espírito da pergunta. (1) Apenas para esclarecer: é o debate sobre o valor-p que você considera "obsoleto" ou apenas essa pergunta? (2) Você saberia onde encontrar a referência (6), "J salários exponenciais"? Tenho certeza de que teria muitos leitores ávidos se fosse mais conhecido.
whuber
5
(1) Sua contribuição é 'certificado como novo' (para citar rottentomatoes.com). Por outro lado, acho essa ênfase obsoleta nas limitações dos valores de p. Em uma era de aprendizado de máquina, big data e baixa alfabetização científica entre o público, a postura da ASA pode parecer um pouco masoquista. (2) Acho que você encontrará esse artigo no mesmo periódico em que publicou o estudo randomizado recomendado neste outro artigo de Natal do BMJ: bmj.com/content/327/7429/1459 .
31516 Joe_74
Eu sempre esqueço, é a Medicina Baseada em Confiança que usa a inferência baseada em Dunning-Kruger?
Alexis20