Este artigo " As probabilidades, atualizadas continuamente" do NY Times chamou minha atenção. Para ser breve, afirma que
[Estatísticas Bayesianas] está se mostrando especialmente útil na abordagem de problemas complexos, incluindo pesquisas como a que a Guarda Costeira usou em 2013 para encontrar o pescador desaparecido, John Aldridge (embora ainda não esteja na caça ao voo 370 da Malaysia Airlines). ......, as estatísticas bayesianas estão se espalhando por tudo, da física à pesquisa do câncer, da ecologia à psicologia ...
No artigo, há também algumas críticas sobre o valor p do frequentista, por exemplo:
Os resultados são geralmente considerados "estatisticamente significativos" se o valor de p for menor que 5%. Mas existe um perigo nessa tradição, disse Andrew Gelman, professor de estatística da Columbia. Mesmo que os cientistas sempre fizessem os cálculos corretamente - e eles não fazem, ele argumenta - aceitar tudo com um valor p de 5% significa que um em cada 20 resultados "estatisticamente significativos" não passa de ruído aleatório.
Além disso, talvez o artigo mais famoso que critica o valor-p seja este - "Método científico: erros estatísticos", de Regina Nuzzo, da Nature , no qual muitas questões científicas levantadas pela abordagem do valor-p foram discutidas, como questões de reprodutibilidade, hackers com valor p etc.
Os valores de P, o "padrão ouro" da validade estatística, não são tão confiáveis quanto muitos cientistas supõem. ...... Talvez a pior falácia seja o tipo de auto-engano pelo qual o psicólogo Uri Simonsohn, da Universidade da Pensilvânia e seus colegas, popularizaram o termo hackers P; também é conhecido como dragagem de dados, bisbilhotagem, pesca, busca de significados e imersão dupla. “P-hacking”, diz Simonsohn, “está tentando várias coisas até que você obtenha o resultado desejado” - mesmo inconscientemente. ...... “Essa descoberta parece ter sido obtida através do p-hacking, os autores abandonaram uma das condições para que o valor p geral fosse menor que 0,05” e “Ela é uma hacker p, ela sempre monitora os dados enquanto estão sendo coletados. ”
Outra coisa é um enredo interessante como seguir a partir daqui , com o comentário sobre o enredo:
Não importa quão pequeno seja o seu efeito, você sempre pode fazer o trabalho duro de coletar dados para passar o limite de p <0,05. Desde que o efeito que você esteja estudando não exista, os valores-p medem apenas o esforço que você investiu na coleta de dados.
Com tudo acima, minhas perguntas são:
O que o argumento de Andrew Gelman, na segunda citação, significa exatamente? Por que ele interpretou o valor p de 5% como "um em cada 20 resultados estatisticamente significativos são apenas ruído aleatório"? Não estou convencido, pois para mim o valor-p é usado para inferir um único estudo. Seu argumento parece relacionado a vários testes.
Atualização: Confira o blog de Andrew Gelman sobre isso: Não, eu não disse isso! (Créditos para @ Scortchi, @ whuber).
Dadas as críticas sobre o valor p, e também há muitos critérios de informação, como AIC, BIC, de Mallow para avaliar a significância de um modelo (daí as variáveis), não devemos usar o valor p para a seleção de variáveis mas usa esses critérios de seleção de modelo?
- Existem boas orientações práticas sobre o uso do valor-p para análises estatísticas que podem levar a resultados de pesquisa mais confiáveis?
A estrutura de modelagem bayesiana seria uma maneira melhor de seguir, como alguns estatísticos defendem? Especificamente, seria mais provável que a abordagem bayesiana resolvesse falsas descobertas ou manipulasse os problemas de dados? Também não estou convencido aqui, pois o prior é muito subjetivo na abordagem bayesiana. Existem estudos práticos e bem conhecidos que mostram que a abordagem bayesiana é melhor que o valor p de frequentista, ou pelo menos em alguns casos particulares?
Atualização: Eu estaria particularmente interessado em saber se há casos em que a abordagem bayesiana é mais confiável do que a abordagem de valor-p de frequentista. Por "confiável", quero dizer que a abordagem bayesiana tem menos probabilidade de manipular dados para obter os resultados desejados. Alguma sugestão?
Atualização 6/9/2015
Acabei de perceber as notícias e achei que seria bom colocá-las aqui para discussão.
Revista de psicologia proíbe valores de P
Um controverso teste estatístico finalmente chegou ao fim, pelo menos em um periódico. No início deste mês, os editores da Psicologia Social Básica e Aplicada (BASP) anunciaram que a revista não publicaria mais artigos contendo valores de P, porque as estatísticas eram frequentemente usadas para apoiar pesquisas de qualidade inferior.
Juntamente com um artigo recente, "O inconstante valor de P gera resultados irreproduzíveis" da Nature , sobre o valor de P.
Atualização 8/8/2016
Em março, a Associação Estatística Americana (ASA) divulgou declarações sobre significância estatística e valores de p, ".... A declaração da ASA pretende direcionar a pesquisa para uma 'era pós-p <0,05'".
Esta declaração contém 6 princípios que abordam o uso indevido do valor-p:
- Os valores P podem indicar o quão incompatíveis os dados são com um modelo estatístico especificado.
- Os valores de p não medem a probabilidade de que a hipótese estudada seja verdadeira ou a probabilidade de os dados terem sido produzidos apenas por acaso.
- As conclusões científicas e decisões de negócios ou políticas não devem se basear apenas no valor de p passar um limite específico.
- Inferência adequada requer relatórios completos e transparência.
- Um valor-p, ou significância estatística, não mede o tamanho de um efeito ou a importância de um resultado.
- Por si só, um valor-p não fornece uma boa medida de evidência a respeito de um modelo ou hipótese.
Detalhes: "A declaração da ASA sobre valores-p: contexto, processo e finalidade" .
Respostas:
Aqui estão alguns pensamentos:
fonte
Para mim, uma das coisas mais interessantes sobre a controvérsia sobre hackers p é que toda a história de p <= 0,05 como o padrão "uma vez na lua azul" para significância estatística, como Joseph Kaldane observou em um artigo da JASA sobre estatísticas forenses nos anos 90, não se baseia absolutamente em nenhuma teoria estatística. É uma convenção, heurística simples e regra de ouro que começou com RA Fisher e foi reificada ou consagrada em seu atual status "não questionado". Bayesiano ou não, há muito tempo para desafiar esse padrão métrico ou pelo menos dar-lhe o ceticismo que ele merece.
Dito isto, minha interpretação do argumento de Gelman é que, como é sabido, o processo de revisão por pares recompensa uma significância estatística positiva e pune resultados insignificantes ao não publicar esses trabalhos. Independentemente de a publicação ou não de uma descoberta insignificante, teria um impacto potencialmente grande no pensamento e teorização de um determinado domínio. Gelman, Simonshohn e outros têm apontado repetidamente o abuso do nível de significância de 0,05 em pesquisas publicadas e revisadas por pares, mantendo exemplos de achados ridículos, mas estatisticamente significativos, em pesquisas paranormais, sociais e psicológicas. Um dos mais flagrantes foi o achado estatisticamente significativo de que as mulheres grávidas eram mais propensas a usar vestidos vermelhos. Gelman sustenta que, na ausência de desafios lógicos aos resultados estatísticos,explicação potencialmente sem sentido. Aqui, ele está se referindo ao risco ocupacional da indústria com argumentos excessivamente técnicos e obscuros que pouco ou nada fazem para promover um debate entre um público leigo.
Esse é um argumento que Gary King faz com veemência quando praticamente implora a cientistas políticos quantitativos (e, por extensão, todos quantos) que parem com reportagens mecânicas e técnicas, como "esse resultado foi significativo em um nível de p <= 0,05" e avançando em direção a interpretações mais substanciais. . Aqui está uma citação de um artigo dele,
O argumento de King é muito bem aceito e mapeia a direção que o debate precisa seguir.
Aproveitando ao máximo as análises estatísticas: melhorando a interpretação e a apresentação , King, Tomz e Wittenberg, 2002, Am Jour da Poli Sci .
fonte
Aqui estão alguns dos meus pensamentos sobre a questão 3 depois de ler todos os comentários e respostas perspicazes.
Talvez uma orientação prática na análise estatística para evitar a invasão de valor p seja, em vez disso, analisar o tamanho do efeito cientificamente (ou biologicamente, clinicamente, etc.) significativo / significativo.
Além disso, para evitar o uso de tamanho de amostra muito grande para detectar o efeito, o tamanho de amostra necessário também deve ser levado em consideração. Ou seja, devemos restringir o tamanho máximo da amostra usado para o experimento.
Resumindo,
Com o exposto acima, talvez possamos evitar um efeito "significativo" menor reivindicado por um grande tamanho de amostra.
[Atualização em 6/9/2015]
Em relação à questão 3, aqui estão algumas sugestões baseadas no artigo recente da natureza: "O inconstante valor de P gera resultados irreprodutíveis", como mencionei na parte da pergunta.
[Atualização final em 9/06/2015]
fonte
Isso implica que 1/20 dos resultados podem rejeitar o nulo quando não deveriam. Se a ciência basear sua conclusão em experimentos únicos, a afirmação seria defensável. Caso contrário, se as experiências fossem repetíveis, isso implicaria que 19/20 não seria rejeitado. A moral da história é que as experiências devem ser repetíveis.
A ciência é uma tradição fundamentada na "objetividade", de modo que a "probabilidade objetiva" naturalmente agrada. Lembre-se de que os experimentos devem demonstrar um alto grau de controle, freqüentemente empregando delineamento de blocos e randomização para controlar fatores fora do estudo. Assim, a comparação com o aleatório faz sentido porque todos os outros fatores devem ser controlados, exceto os que estão sendo estudados. Essas técnicas tiveram muito sucesso na agricultura e na indústria antes de serem transportadas para a ciência.
Não tenho certeza se a falta de informações realmente foi o problema. É notável que, para muitos nas ciências não-matemáticas, a estatística seja apenas uma caixa de verificação.
Eu sugeriria uma leitura geral sobre a teoria da decisão que une as duas estruturas. Simplesmente se resume a usar o máximo de informações que você possui. As estatísticas freqüentistas assumem que os parâmetros nos modelos têm valores desconhecidos de distribuições fixas. Os bayesianos assumem que os parâmetros nos modelos vêm de distribuições condicionadas pelo que sabemos. Se houver informações suficientes para formar uma informação prévia e suficiente para atualizá-la para um posterior preciso, isso é ótimo. Se não houver, você pode acabar com resultados piores.
fonte
Reprodutibilidade dos resultados estatísticos dos testes
Este é um exercício curto e simples para avaliar a reprodutibilidade de decisões com base em testes estatísticos.
Considere uma hipótese nula H0 com um conjunto de hipóteses alternativas contendo H1 e H2. Configure o procedimento de teste de hipótese estatística em um nível de significância de 0,05 para ter um poder de 0,8, se H1 for verdadeiro. Além disso, suponha que a potência para H2 seja 0,5. Para avaliar a reprodutibilidade do resultado do teste, considera-se o experimento de executar o procedimento de teste duas vezes. Começando com a situação em que H0 é verdadeiro, as probabilidades para os resultados do experimento conjunto são exibidas na Tabela 1. A probabilidade de não ser capaz de reproduzir decisões é de 0,095.
Tabela 1. Frequências, se H0 for verdadeiroAs frequências mudam à medida que o verdadeiro estado da natureza muda. Supondo que H1 seja verdadeiro, H0 pode ser rejeitado conforme projetado com uma potência de 0,8. As frequências resultantes para os diferentes resultados do experimento conjunto são exibidas na Tabela 2. A probabilidade de não ser capaz de reproduzir decisões é de 0,32.
Tabela 2. Frequências, se H1 for verdadeiroSupondo que H2 seja verdadeiro, H0 será rejeitado com uma probabilidade de 0,5. As frequências resultantes para os diferentes resultados do experimento conjunto são exibidas na Tabela 3. A probabilidade de não ser capaz de reproduzir decisões é de 0,5.
Tabela 3. Frequências, se H2 for verdadeiroO procedimento de teste foi projetado para controlar erros do tipo I (a rejeição da hipótese nula, embora seja verdadeira) com uma probabilidade de 0,05 e limitar os erros do tipo II (sem rejeição da hipótese nula, mesmo que ela esteja errada e H1 seja verdadeira) a 0,2. Nos dois casos, com H0 ou H1 assumido como verdadeiro, isso leva a frequências não desprezíveis, 0,095 e 0,32, respectivamente, de decisões "não reproduzíveis" e "contraditórias", se o mesmo experimento for repetido duas vezes. A situação piora com uma frequência de até 0,5 para decisões "não reproduzíveis" e "contraditórias", se o verdadeiro estado da natureza estiver entre a hipótese nula e a alternativa usada para projetar o experimento.
A situação também pode melhorar - se os erros do tipo 1 forem controlados com mais rigor ou se o verdadeiro estado da natureza estiver longe do nulo, o que resulta em um poder de rejeitar o nulo próximo de 1.
Portanto, se você deseja decisões mais reprodutíveis, aumente o nível de significância e o poder de seus testes. Não é muito surpreendente ...
fonte