O valor-p é essencialmente inútil e perigoso de usar?

36

Este artigo " As probabilidades, atualizadas continuamente" do NY Times chamou minha atenção. Para ser breve, afirma que

[Estatísticas Bayesianas] está se mostrando especialmente útil na abordagem de problemas complexos, incluindo pesquisas como a que a Guarda Costeira usou em 2013 para encontrar o pescador desaparecido, John Aldridge (embora ainda não esteja na caça ao voo 370 da Malaysia Airlines). ......, as estatísticas bayesianas estão se espalhando por tudo, da física à pesquisa do câncer, da ecologia à psicologia ...

No artigo, há também algumas críticas sobre o valor p do frequentista, por exemplo:

Os resultados são geralmente considerados "estatisticamente significativos" se o valor de p for menor que 5%. Mas existe um perigo nessa tradição, disse Andrew Gelman, professor de estatística da Columbia. Mesmo que os cientistas sempre fizessem os cálculos corretamente - e eles não fazem, ele argumenta - aceitar tudo com um valor p de 5% significa que um em cada 20 resultados "estatisticamente significativos" não passa de ruído aleatório.

Além disso, talvez o artigo mais famoso que critica o valor-p seja este - "Método científico: erros estatísticos", de Regina Nuzzo, da Nature , no qual muitas questões científicas levantadas pela abordagem do valor-p foram discutidas, como questões de reprodutibilidade, hackers com valor p etc.

Os valores de P, o "padrão ouro" da validade estatística, não são tão confiáveis ​​quanto muitos cientistas supõem. ...... Talvez a pior falácia seja o tipo de auto-engano pelo qual o psicólogo Uri Simonsohn, da Universidade da Pensilvânia e seus colegas, popularizaram o termo hackers P; também é conhecido como dragagem de dados, bisbilhotagem, pesca, busca de significados e imersão dupla. “P-hacking”, diz Simonsohn, “está tentando várias coisas até que você obtenha o resultado desejado” - mesmo inconscientemente. ...... “Essa descoberta parece ter sido obtida através do p-hacking, os autores abandonaram uma das condições para que o valor p geral fosse menor que 0,05” e “Ela é uma hacker p, ela sempre monitora os dados enquanto estão sendo coletados. ”

Outra coisa é um enredo interessante como seguir a partir daqui , com o comentário sobre o enredo:

Não importa quão pequeno seja o seu efeito, você sempre pode fazer o trabalho duro de coletar dados para passar o limite de p <0,05. Desde que o efeito que você esteja estudando não exista, os valores-p medem apenas o esforço que você investiu na coleta de dados.

insira a descrição da imagem aqui

Com tudo acima, minhas perguntas são:

  1. O que o argumento de Andrew Gelman, na segunda citação, significa exatamente? Por que ele interpretou o valor p de 5% como "um em cada 20 resultados estatisticamente significativos são apenas ruído aleatório"? Não estou convencido, pois para mim o valor-p é usado para inferir um único estudo. Seu argumento parece relacionado a vários testes.

    Atualização: Confira o blog de Andrew Gelman sobre isso: Não, eu não disse isso! (Créditos para @ Scortchi, @ whuber).

  2. Dadas as críticas sobre o valor p, e também há muitos critérios de informação, como AIC, BIC, de Mallow para avaliar a significância de um modelo (daí as variáveis), não devemos usar o valor p para a seleção de variáveis mas usa esses critérios de seleção de modelo?Cp

  3. Existem boas orientações práticas sobre o uso do valor-p para análises estatísticas que podem levar a resultados de pesquisa mais confiáveis?
  4. A estrutura de modelagem bayesiana seria uma maneira melhor de seguir, como alguns estatísticos defendem? Especificamente, seria mais provável que a abordagem bayesiana resolvesse falsas descobertas ou manipulasse os problemas de dados? Também não estou convencido aqui, pois o prior é muito subjetivo na abordagem bayesiana. Existem estudos práticos e bem conhecidos que mostram que a abordagem bayesiana é melhor que o valor p de frequentista, ou pelo menos em alguns casos particulares?

    Atualização: Eu estaria particularmente interessado em saber se há casos em que a abordagem bayesiana é mais confiável do que a abordagem de valor-p de frequentista. Por "confiável", quero dizer que a abordagem bayesiana tem menos probabilidade de manipular dados para obter os resultados desejados. Alguma sugestão?


Atualização 6/9/2015

Acabei de perceber as notícias e achei que seria bom colocá-las aqui para discussão.

Revista de psicologia proíbe valores de P

Um controverso teste estatístico finalmente chegou ao fim, pelo menos em um periódico. No início deste mês, os editores da Psicologia Social Básica e Aplicada (BASP) anunciaram que a revista não publicaria mais artigos contendo valores de P, porque as estatísticas eram frequentemente usadas para apoiar pesquisas de qualidade inferior.

Juntamente com um artigo recente, "O inconstante valor de P gera resultados irreproduzíveis" da Nature , sobre o valor de P.

Atualização 8/8/2016

Em março, a Associação Estatística Americana (ASA) divulgou declarações sobre significância estatística e valores de p, ".... A declaração da ASA pretende direcionar a pesquisa para uma 'era pós-p <0,05'".

Esta declaração contém 6 princípios que abordam o uso indevido do valor-p:

  1. Os valores P podem indicar o quão incompatíveis os dados são com um modelo estatístico especificado.
  2. Os valores de p não medem a probabilidade de que a hipótese estudada seja verdadeira ou a probabilidade de os dados terem sido produzidos apenas por acaso.
  3. As conclusões científicas e decisões de negócios ou políticas não devem se basear apenas no valor de p passar um limite específico.
  4. Inferência adequada requer relatórios completos e transparência.
  5. Um valor-p, ou significância estatística, não mede o tamanho de um efeito ou a importância de um resultado.
  6. Por si só, um valor-p não fornece uma boa medida de evidência a respeito de um modelo ou hipótese.

Detalhes: "A declaração da ASA sobre valores-p: contexto, processo e finalidade" .

Aaron Zeng
fonte
11
Re 1: Eu suspeito que o bloco Gelman pode ser uma citação incorreta, porque precisa de suposições fortes (contrafactuais) para estar correto. Se tudo que já foi estudado no mundo seguiu suas hipóteses nulas, e todas as hipóteses nulas fossem simples (e não compostas), então pela construção 5% de todos os valores de p menores que ocorreriam por acaso - seria "ruído aleatório". No entanto, se as pessoas sempre realizassem experimentos detalhados e extensos, onde a hipótese alternativa é verdadeira (como na última citação), então essencialmente 100% de todos os valores de p seriam menores que e nenhum deles seria "ruído". 0,050,050,05
whuber
10
@whuber: Você está certo: não, eu não disse isso! .
Scortchi - Restabelece Monica
4
Boa descoberta, @ Scortchi! Para constar - no caso de o link ficar ruim - Gelman rejeita enfaticamente a caracterização do NY Times (embora com muito tato) e escreve "aceitar tudo com um valor p de 5% pode levar a descobertas espúrias - casos em que um" padrão estatisticamente significativo ”nos dados não reflete um padrão correspondente na população - mais de 5% do tempo".
whuber
3
Em referência ao seu comentário "Enquanto o efeito que você está estudando não existir," esse é o objetivo dos estudos que envolvem valores de p - para determinar se o efeito que você está estudando está realmente presente ou se as peculiaridades do os dados que você coletou devem-se apenas a chances aleatórias. A redução do valor p com o aumento do tamanho da amostra é matematicamente sólida e, de fato, a única opção. Você não está "invadindo" o valor-p. Do ponto de vista intuitivo, faz sentido que colocar mais esforço na coleta de dados se traduza em uma confiança maior nas conclusões que você extrai deles.
David Webb
1
@DavidWebb Concordou. Se o tamanho do efeito for pequeno, tudo bem e será mais fácil dizer quão grande ou pequeno o efeito é com mais dados. Se você pode obter mais dados, deveria.
Destino 26/01

Respostas:

25

Aqui estão alguns pensamentos:

  1. 80%100/118,7584%
  2. p
  3. p
  4. Não sou dogmaticamente contra o uso de métodos bayesianos, mas não acredito que eles resolveriam esse problema. Por exemplo, você pode continuar coletando dados até que o intervalo credível não inclua mais o valor que você deseja rejeitar. Assim, você tem 'intervalo de hackers credível'. A meu ver, a questão é que muitos profissionais não estão intrinsecamente interessados ​​nas análises estatísticas que usam, portanto usarão o método que lhes for exigido de maneira mecânica e impensada. Para mais informações sobre minha perspectiva aqui, pode ser útil ler minha resposta para: Tamanho do efeito como hipótese para teste de significância .
- Reinstate Monica
fonte
10
(+1) Uma maneira fácil de hackear um intervalo confiável é adotar exatamente o antes :-). É claro que nenhum profissional competente faria isso - Gelman enfatiza o uso de avaliações de sensibilidade, hiperinformações não informativas, etc. - mas, novamente, nenhum usuário competente de testes de hipóteses faria hackers com valor de p, faria? Por outro lado, em uma análise bayesiana, pode ser mais difícil ocultar o que se está fazendo - supondo que o anterior seja claramente divulgado - em comparação com todas as análises não documentadas que possam estar envolvidas em hackers de valor p.
whuber
1
@ Whuber, isso é verdade, mas acho que podemos deixar de lado quaisquer problemas com a inadequação ou a subjetividade do anterior. Se o efeito verdadeiro não for exatamente 0, com dados suficientes, o intervalo credível acabará por não incluir 0, assim como p será <0,05 (cf, a última citação), para que você possa continuar coletando dados até obter o resultado que você deseja, independentemente do anterior.
gung - Restabelece Monica
4
Bons pontos. Lembro-me de uma pergunta recente sobre a previsão de falhas em 10.000 produtos depois de observar nenhuma falha em 100.000 deles. A resposta é bastante sensível ao anterior, porque as falhas são muito raras. Esse pode ser o tipo de situação excepcional que "prova a regra"; mostra que, na realidade, pode ser impraticável coletar dados suficientes para obter o resultado desejado. É exatamente quando alguns clientes começam a implorar ao estatístico para "fazer sua mágica" para alcançar o resultado desejado! Provavelmente muitos leitores já sentiram essa pressão antes de ....
whuber
1
@gung, em ensaios clínicos práticos, sempre há critérios de parada em diferentes fases para o recrutamento de mais sujeitos para experimentos. Nesse sentido, a abordagem bayesiana pareceria menos provável de manipular o intervalo confiável, assim, as conclusões da pesquisa?
Aaron Zeng
2
@AaronZeng, parece-me que critérios explícitos de parada se aplicam igualmente às perspectivas freqüentistas e bayesianas. Não vejo nenhuma vantagem / desvantagem líquida aqui.
gung - Restabelece Monica
8

Para mim, uma das coisas mais interessantes sobre a controvérsia sobre hackers p é que toda a história de p <= 0,05 como o padrão "uma vez na lua azul" para significância estatística, como Joseph Kaldane observou em um artigo da JASA sobre estatísticas forenses nos anos 90, não se baseia absolutamente em nenhuma teoria estatística. É uma convenção, heurística simples e regra de ouro que começou com RA Fisher e foi reificada ou consagrada em seu atual status "não questionado". Bayesiano ou não, há muito tempo para desafiar esse padrão métrico ou pelo menos dar-lhe o ceticismo que ele merece.

Dito isto, minha interpretação do argumento de Gelman é que, como é sabido, o processo de revisão por pares recompensa uma significância estatística positiva e pune resultados insignificantes ao não publicar esses trabalhos. Independentemente de a publicação ou não de uma descoberta insignificante, teria um impacto potencialmente grande no pensamento e teorização de um determinado domínio. Gelman, Simonshohn e outros têm apontado repetidamente o abuso do nível de significância de 0,05 em pesquisas publicadas e revisadas por pares, mantendo exemplos de achados ridículos, mas estatisticamente significativos, em pesquisas paranormais, sociais e psicológicas. Um dos mais flagrantes foi o achado estatisticamente significativo de que as mulheres grávidas eram mais propensas a usar vestidos vermelhos. Gelman sustenta que, na ausência de desafios lógicos aos resultados estatísticos,explicação potencialmente sem sentido. Aqui, ele está se referindo ao risco ocupacional da indústria com argumentos excessivamente técnicos e obscuros que pouco ou nada fazem para promover um debate entre um público leigo.

Esse é um argumento que Gary King faz com veemência quando praticamente implora a cientistas políticos quantitativos (e, por extensão, todos quantos) que parem com reportagens mecânicas e técnicas, como "esse resultado foi significativo em um nível de p <= 0,05" e avançando em direção a interpretações mais substanciais. . Aqui está uma citação de um artigo dele,

(1) transmitir estimativas numericamente precisas das quantidades de maior interesse substantivo, (2) incluir medidas razoáveis ​​de incerteza sobre essas estimativas e (3) exigir pouco conhecimento especializado para entender. A seguinte declaração simples satisfaz nossos critérios: 'Se outras coisas forem iguais, um ano adicional de educação aumentaria sua renda anual em 1.500 dólares, em média, mais ou menos cerca de 500 dólares'. Qualquer estudante inteligente do ensino médio entenderia essa frase, por mais sofisticado que o modelo estatístico e mais poderoso que os computadores usassem para produzi-lo.

O argumento de King é muito bem aceito e mapeia a direção que o debate precisa seguir.

Aproveitando ao máximo as análises estatísticas: melhorando a interpretação e a apresentação , King, Tomz e Wittenberg, 2002, Am Jour da Poli Sci .

Mike Hunter
fonte
2
+1 Obrigado por esta contribuição legível, informativa e atenciosa para o tópico.
whuber
@whuber Obrigado pelas amáveis ​​palavras. O tempo dirá se outros participantes concordam ou não.
Mike Hunter
2
Posso me iludir, mas gosto de pensar que alguns (se não a maioria) de nossos eleitores ativos não votam com base em acordo ou desacordo, mas em se um post responde à pergunta original de uma maneira clara e autoritária . Afinal, o texto suspenso acima do ícone de votação indica "Esta resposta é útil", não "Eu concordo com esse cara". (Isto não é para ser confundido com votando em nosso site meta, o que faz grau significam de acordo.) Algumas evidências para essa impressão é oferecida pelos muitos emblemas esportivo premiados.
whuber
@Whuber A nuance que você aponta é devidamente anotada.
Mike Hunter
@whuber esse tópico foi a fonte do meu uso da palavra iludida em nosso bate-papo no outro dia.
Mike Hunter
5

Aqui estão alguns dos meus pensamentos sobre a questão 3 depois de ler todos os comentários e respostas perspicazes.

Talvez uma orientação prática na análise estatística para evitar a invasão de valor p seja, em vez disso, analisar o tamanho do efeito cientificamente (ou biologicamente, clinicamente, etc.) significativo / significativo.

θ

H0 0:θ=0 0vs.Huma:θ0 0,
H0 0:θ<δvs.Huma:θδ,
δ

Além disso, para evitar o uso de tamanho de amostra muito grande para detectar o efeito, o tamanho de amostra necessário também deve ser levado em consideração. Ou seja, devemos restringir o tamanho máximo da amostra usado para o experimento.

Resumindo,

  1. Precisamos predefinir um limite para o tamanho do efeito significativo para declarar significância;
  2. Precisamos predefinir um limite para o tamanho da amostra usado no experimento para quantificar quão detectável é o tamanho do efeito significativo;

Com o exposto acima, talvez possamos evitar um efeito "significativo" menor reivindicado por um grande tamanho de amostra.


[Atualização em 6/9/2015]

Em relação à questão 3, aqui estão algumas sugestões baseadas no artigo recente da natureza: "O inconstante valor de P gera resultados irreprodutíveis", como mencionei na parte da pergunta.

  1. Relate estimativas de tamanho de efeito e sua precisão, ou seja, intervalo de confiança de 95%, pois essas informações mais informativas respondem exatamente a perguntas como qual é a diferença, ou qual é a força do relacionamento ou associação;
  2. Coloque as estimativas de tamanho de efeito e ICs de 95% no contexto de estudos / perguntas científicas específicas e concentre-se na relevância de responder a essas perguntas e descontar o inconstante valor de P;
  3. Substitua a análise de energia por " planejamento de precisão " para determinar o tamanho da amostra necessário para estimar o tamanho do efeito para atingir um grau definido de precisão.

[Atualização final em 9/06/2015]

Aaron Zeng
fonte
4
H0 0:θ=δ
@ AndyW, obrigado pelos comentários. Eu mudei minha resposta de acordo. Isso soaria uma opção melhor?
Aaron Zeng 26/01
2
+1 para a referência a esse artigo da Nature. No entanto, ele contém algumas informações desinformadas, como a interpretação bayesiana (sem aviso prévio) dos valores de p: "Como exemplo, se um estudo obtiver P = 0,03, há 90% de chance de um estudo replicado retornar um valor P em algum lugar entre o amplo intervalo de 0 a 0,6 (intervalos de previsão de 90%), enquanto as chances de P <0,05 são de apenas 56%. " Eu me pergunto que distribuição prévia os autores estão assumindo - e por que isso é relevante?
whuber
@AndyW e Aaron Zeng, ainda melhor é combinar resultados dos dois testes de diferença e testes de equivalência. Dessa forma, coloca-se explicitamente o tamanho do efeito relevante e o poder estatístico nas conclusões que se tira (consulte a seção sobre testes de relevância).
Alexis
3

P(D|H0 0)αH0 0H0 0

  1. Isso implica que 1/20 dos resultados podem rejeitar o nulo quando não deveriam. Se a ciência basear sua conclusão em experimentos únicos, a afirmação seria defensável. Caso contrário, se as experiências fossem repetíveis, isso implicaria que 19/20 não seria rejeitado. A moral da história é que as experiências devem ser repetíveis.

  2. A ciência é uma tradição fundamentada na "objetividade", de modo que a "probabilidade objetiva" naturalmente agrada. Lembre-se de que os experimentos devem demonstrar um alto grau de controle, freqüentemente empregando delineamento de blocos e randomização para controlar fatores fora do estudo. Assim, a comparação com o aleatório faz sentido porque todos os outros fatores devem ser controlados, exceto os que estão sendo estudados. Essas técnicas tiveram muito sucesso na agricultura e na indústria antes de serem transportadas para a ciência.

  3. Não tenho certeza se a falta de informações realmente foi o problema. É notável que, para muitos nas ciências não-matemáticas, a estatística seja apenas uma caixa de verificação.

  4. Eu sugeriria uma leitura geral sobre a teoria da decisão que une as duas estruturas. Simplesmente se resume a usar o máximo de informações que você possui. As estatísticas freqüentistas assumem que os parâmetros nos modelos têm valores desconhecidos de distribuições fixas. Os bayesianos assumem que os parâmetros nos modelos vêm de distribuições condicionadas pelo que sabemos. Se houver informações suficientes para formar uma informação prévia e suficiente para atualizá-la para um posterior preciso, isso é ótimo. Se não houver, você pode acabar com resultados piores.

Emir
fonte
1

Reprodutibilidade dos resultados estatísticos dos testes

Este é um exercício curto e simples para avaliar a reprodutibilidade de decisões com base em testes estatísticos.

Considere uma hipótese nula H0 com um conjunto de hipóteses alternativas contendo H1 e H2. Configure o procedimento de teste de hipótese estatística em um nível de significância de 0,05 para ter um poder de 0,8, se H1 for verdadeiro. Além disso, suponha que a potência para H2 seja 0,5. Para avaliar a reprodutibilidade do resultado do teste, considera-se o experimento de executar o procedimento de teste duas vezes. Começando com a situação em que H0 é verdadeiro, as probabilidades para os resultados do experimento conjunto são exibidas na Tabela 1. A probabilidade de não ser capaz de reproduzir decisões é de 0,095.

Tabela 1. Frequências, se H0 for verdadeiro

Freqvocêency.of.decEusEuonReject.H0 0RetumaEun.H0 0Reject.H0 00,00250,0475RetumaEun.H0 00,04750,9025

As frequências mudam à medida que o verdadeiro estado da natureza muda. Supondo que H1 seja verdadeiro, H0 pode ser rejeitado conforme projetado com uma potência de 0,8. As frequências resultantes para os diferentes resultados do experimento conjunto são exibidas na Tabela 2. A probabilidade de não ser capaz de reproduzir decisões é de 0,32.

Tabela 2. Frequências, se H1 for verdadeiro

Freqvocêency.of.decEusEuonReject.H0 0RetumaEun.H0 0Reject.H0 00,640,16RetumaEun.H0 00,160,04

Supondo que H2 seja verdadeiro, H0 será rejeitado com uma probabilidade de 0,5. As frequências resultantes para os diferentes resultados do experimento conjunto são exibidas na Tabela 3. A probabilidade de não ser capaz de reproduzir decisões é de 0,5.

Tabela 3. Frequências, se H2 for verdadeiro

Freqvocêency.of.decEusEuonReject.H0 0RetumaEun.H0 0Reject.H0 00,250,25RetumaEun.H0 00,250,25

O procedimento de teste foi projetado para controlar erros do tipo I (a rejeição da hipótese nula, embora seja verdadeira) com uma probabilidade de 0,05 e limitar os erros do tipo II (sem rejeição da hipótese nula, mesmo que ela esteja errada e H1 seja verdadeira) a 0,2. Nos dois casos, com H0 ou H1 assumido como verdadeiro, isso leva a frequências não desprezíveis, 0,095 e 0,32, respectivamente, de decisões "não reproduzíveis" e "contraditórias", se o mesmo experimento for repetido duas vezes. A situação piora com uma frequência de até 0,5 para decisões "não reproduzíveis" e "contraditórias", se o verdadeiro estado da natureza estiver entre a hipótese nula e a alternativa usada para projetar o experimento.

A situação também pode melhorar - se os erros do tipo 1 forem controlados com mais rigor ou se o verdadeiro estado da natureza estiver longe do nulo, o que resulta em um poder de rejeitar o nulo próximo de 1.

Portanto, se você deseja decisões mais reprodutíveis, aumente o nível de significância e o poder de seus testes. Não é muito surpreendente ...

user36160
fonte
(+1) Mas você não pode definir o valor p para 5% antes do experimento - pense que você quer dizer "nível de significância".
Scortchi - Restabelece Monica
Obrigado. A mesma coisa na última frase: "diminua os níveis de significância e aumente o poder"
Scortchi - Restabelece Monica
Penso que o maior problema com os valores de p é que as pessoas os confundem com significado substantivo. Portanto, se p <0,05 significa que o tamanho do efeito descoberto é grande o suficiente para importar. No trabalho, me pedem para gerar efeitos [substanciais] significativos ao gerar valores de p.
user54285 15/03