Nos últimos anos, vários estudiosos levantaram um problema prejudicial do teste de hipóteses científicas, apelidado de "grau de liberdade do pesquisador", o que significa que os cientistas têm inúmeras opções a fazer durante suas análises que têm como objetivo encontrar valores de p <5%. Essas opções ambíguas são, por exemplo, qual caso a ser incluído, qual caso é categorizado como externo, executando inúmeras especificações de modelos até que algo apareça, não publique resultados nulos etc. (O artigo que provocou esse debate em psicologia está aqui , veja um artigo popular do Slate e um debate de acompanhamento de Andrew Gelman aqui , e a revista Time também aborda esse tópico aqui .)
Primeiro , uma pergunta de esclarecimento:
A revista Time escreveu:
"Um poder de 0,8 significa que das dez hipóteses verdadeiras testadas, apenas duas serão descartadas porque seus efeitos não são detectados nos dados;"
Não tenho certeza de como isso se encaixa na definição da função de poder que encontrei no livro, que é a probabilidade de rejeitar o nulo como uma função do parâmetro . Com θ diferente , temos poder diferente, por isso não entendo bem a citação acima.
Segundo , algumas implicações da pesquisa:
No meu campo da ciência política / economia, os estudiosos simplesmente usam todos os dados disponíveis por ano. Portanto, não devemos nos preocupar com a manipulação de amostras aqui?
O problema de executar vários testes, mas reportar apenas um modelo, pode ser corrigido simplesmente pelo fato de alguém na disciplina testar novamente seu trabalho e derrubá-lo imediatamente por não ter resultados robustos? Antecipando isso, é mais provável que os estudiosos da minha área incluam uma
robustness check
seção, na qual mostram que várias especificações de modelo não alteram o resultado. Isso é suficiente?Andrew Gelman e outros argumentam que, independentemente dos dados, sempre seria possível encontrar e publicar algum "padrão" que não existe realmente. Mas isso não deve ser uma preocupação, dado o fato de que qualquer "padrão" empírico deve ser apoiado por uma teoria, e as teorias rivais dentro de uma disciplina se envolverão apenas em um debate / corrida para descobrir qual campo é capaz de encontrar mais "padrões". em vários lugares. Se um padrão for realmente falso, a teoria por trás será rapidamente derrubada quando não houver padrão semelhante em outras amostras / configurações. Não é assim que a ciência progride?
Supondo que a tendência atual dos periódicos para resultado nulo realmente floresça, existe uma maneira de agregar todos os resultados nulos e positivos e fazer uma inferência sobre a teoria que todos eles tentam testar?
Respostas:
Em vez de usar valores-p para avaliar reivindicações, devemos seguir o conselho de Robert Abelson e usar os critérios MAGIC:
Para mais informações sobre Abelson, veja minha resenha de seu livro
E devemos nos concentrar nos tamanhos dos efeitos, e não nos valores de p na saída estatística (com a possível exceção de alguns tipos de mineração de dados, nos quais não sou especialista em nada). E os tamanhos dos efeitos devem ser julgados no contexto:
Um estatístico / analista de dados não deve ser uma pessoa estranha, usada como uma caixa preta na qual os dados são colocados e retirados dos quais os valores de p são obtidos; ele / ela deve ser um colaborador de pesquisa destinada a apresentar um argumento razoável sobre o significado de algum conjunto de dados no contexto de algum campo, dadas as teorias atuais (ou a falta delas) e as evidências atuais (ou a falta delas).
Infelizmente, essa abordagem requer reflexão por parte dos pesquisadores substantivos, do analista de dados e de quem revisa os resultados (seja um chefe de cabelos pontudos, um comitê de dissertação, um editor de periódico ou quem quer que seja). Estranhamente, até os acadêmicos parecem avessos a esse tipo de pensamento.
Para mais informações, aqui está um artigo que escrevi publicado no Sciences360.
fonte
O campo da ciência estatística abordou essas questões desde o início. Eu continuo dizendo que o papel do estatístico é garantir que a taxa de erro do tipo 1 permaneça fixa. Isso implica que o risco de tirar conclusões falsas positivas não pode ser eliminado, mas pode ser controlado. Isso deve chamar nossa atenção para o volume extremamente grande de pesquisas científicas que estão sendo conduzidas, e não para a filosofia e ética da prática estatística geral. Para cada resultado incrível (não creditável) que aparece na mídia (ou na política do governo), pelo menos 19 outros resultados não creditáveis foram abatidos por suas descobertas nulas.
De fato, se você for, digamos, clinictrials.gov, observará que existem (para quase qualquer indicação de doença) bem mais de 1.000 ensaios clínicos para agentes farmacêuticos em andamento nos EUA neste exato momento. Isso significa que, com uma taxa de erro falso positivo de 0,001, em média, pelo menos 1 medicamento será colocado nas prateleiras que não tiverem efeito. A validade de 0,05 como um limite validado para significância estatística foi contestada repetidamente. Ironicamente, são apenas os estatísticos que se sentem desconfortáveis com o uso de uma taxa de erro falso positivo de 1/20, enquanto os interessados financeiros (sejam eles PIs ou Merck) perseguem crenças tenazmente, independentemente de resultados in vitro, provas teóricas ou força de evidências anteriores. Honestamente, essa tenacidade é uma qualidade pessoal bem-sucedida e louvável de muitos indivíduos que são bem-sucedidos em funções não estatísticas. Eles geralmente estão sentados acima dos estatísticos, em seus respectivos totens, que tendem a alavancar essa tenacidade.
Acho que a cotação da Time que você apresentou está completamente errada. Poder é a probabilidade de rejeitar a hipótese nula, uma vez que é falsa. Isso depende mais importante de quão "falsa" é a hipótese nula (que por sua vez depende de um tamanho de efeito mensurável). Eu raramente falo de poder fora do contexto do efeito que consideraríamos "interessante" detectar. (por exemplo, uma sobrevida de quatro meses após o tratamento quimioterápico do câncer de pâncreas no estágio 4 não é interessante, portanto, não há razão para recrutar 5.000 indivíduos para um estudo de fase 3).
Para responder às perguntas que você fez
???
A multiplicidade é difícil porque não leva a uma regra de decisão óbvia sobre como lidar com os dados. Por exemplo, suponha que estejamos interessados em um teste simples de diferença média. Apesar dos infinitos protestos de meus colegas, é fácil mostrar que o teste t está bem calibrado para detectar diferenças na média, independentemente da distribuição amostral dos dados. Suponha que seguimos alternadamente o caminho deles. Eles começariam testando a normalidade usando alguma variante de um teste distributivo bem conhecido (por exemplo, calibração do qqplot). Se os dados parecessem suficientemente não normais, eles perguntariam se os dados seguem alguma transformação bem conhecida e depois aplicariam uma transformação Box Cox para determinar uma transformação de potência (possivelmente logarítmica) que maximiza a entropia. Se um valor numérico óbvio aparecer, eles usarão essa transformação. Caso contrário, eles usarão o teste Wilcoxon "livre de distribuição". Para esta sequência ad-hoc de eventos, não posso começar a esperar como calcular a calibração e a potência para um teste simples de diferenças médias quando o teste t simples e estúpido seria suficiente. Suspeito que atos estúpidos como esse possam estar matematicamente ligados à estimativa supereficiente de Hodge: estimadores que são de alta potência sob uma hipótese específica que queremos que seja verdade. No entanto, esse processo é s estimativa supereficiente: estimadores que são de alta potência sob uma hipótese específica, queremos ser verdadeiros. No entanto, esse processo é s estimativa supereficiente: estimadores que são de alta potência sob uma hipótese específica, queremos ser verdadeiros. No entanto, esse processo énão estatístico porque a taxa de erro falso positivo não foi controlada.
O conceito de que as tendências podem ser "descobertas" erroneamente em qualquer conjunto aleatório de dados provavelmente remonta ao artigo bem escrito de Martin chamado "Grade Estatística de Munchaesen" . Esta é uma leitura muito esclarecedora e remonta a 1984, antes de o bezerro de ouro do aprendizado de máquina nascer para nós como o conhecemos atualmente. De fato, uma hipótese corretamente declarada é falsificável, mas os erros do tipo 1 tornaram-se muito mais caros em nossa sociedade orientada por dados do que jamais foram antes. Considere, por exemplo, a evidência falsificada da pesquisa anti-vacina que levou a uma sequência maciça de mortes por coqueluche. Os resultados que rejeitaram a defesa pública de vacinas foram vinculados a um único estudo(que, embora errado, não foi confirmado por pesquisa externa). Existe um ímpeto ético para conduzir resultados e relatar a força da evidência de honestidade e bondade. Quão forte é a evidência? Tem pouco a ver com o valor-p que você obtém, mas o valor-p que você disse que chamaria de significativo. E lembre-se, falsificar seus dados altera o valor de p, mesmo quando o teste confirmatório final relata algo diferente (geralmente muito menor).
SIM! Você pode ver claramente nas meta-análises publicadas por periódicos como o relatório Cochrane que a distribuição dos resultados dos testes parece mais bimodal que o noraml, com apenas resultados positivos e negativos entrando em periódicos. Esta evidência é absolutamente maluca e confusa para qualquer pessoa na prática clínica. Se, em vez disso, publicarmos resultados nulos (provenientes de estudos cujos resultados nos interessariam, independentemente do que eles venham a ser ), podemos esperar que as meta-análises realmente representem evidências significativas e representativas.
fonte
Primeiro, eu não sou estatístico, apenas um pesquisador que pesquisou bastante nos últimos anos para descobrir por que os métodos que observo sendo usados ao meu redor estão tão ausentes e por que há tanta confusão sobre conceitos básicos como "o que é um valor p? " Vou dar a minha perspectiva.
Potência é uma função de θ, variação e tamanho da amostra. Não sei ao certo qual é a confusão. Também para muitos casos em que o teste de significância é usado, a hipótese nula de média1 = média2 é sempre falsa. Nesses casos, o significado é apenas uma função do tamanho da amostra. Por favor, leia "Testes teóricos em psicologia e física: um paradoxo metodológico" de Paul Meehl que esclareceu muitas coisas para mim e nunca vi uma resposta adequada. Paul Meehl tem alguns outros documentos sobre isso que você pode encontrar pesquisando o nome dele.
Se você ler o artigo de Simmons 2011, essa é apenas uma das técnicas de "p-hacking" mencionadas. Se é verdade que existe apenas um conjunto de dados e ninguém escolhe amostras seletivas, acho que não há espaço para aumentar o tamanho da amostra.
Se a replicação estivesse ocorrendo sem viés de publicação, não haveria necessidade de "diários do resultado nulo". Eu diria que a seção de verificação de robustez é boa de ter, mas não é suficiente na presença de pesquisadores que não publicam o que consideram resultados nulos. Também não consideraria um resultado robusto apenas porque várias técnicas de análise nos mesmos dados chegaram à mesma conclusão. Um resultado robusto é aquele que faz uma previsão correta de efeito / correlação / etc em novos dados .
Uma replicação não está obtendo p <0,05 nas duas vezes. A teoria deve ser considerada mais robusta se predisse um efeito / correlação / etc diferente do usado no primeiro estudo. Não me refiro à presença de um efeito ou correlação, mas ao valor preciso ou a uma pequena faixa de valores comparada a uma possível faixa de valores. A presença de efeito aumentado / diminuído ou correlação positiva / negativa tem 100% de probabilidade de ser verdadeira no caso de a hipótese nula ser falsa. Leia Meehl.
A ciência não pode funcionar corretamente se os pesquisadores não publicarem resultados nulos. Também porque o padrão não foi descoberto na segunda amostra / cenário não significa que ele não exista nas condições do estudo inicial.
Isso seria uma meta-análise . Não há nada de especial nos resultados nulos nesse caso, exceto que os pesquisadores não os publicam porque os valores-p estavam acima do limiar arbitrário. Na presença de viés de publicação, a meta-análise não é confiável, assim como toda a literatura que sofre de viés de publicação. Embora possa ser útil, a metanálise é muito inferior para avaliar uma teoria do que fazer com que ela faça uma previsão precisa que é então testada. O viés de publicação não importa tanto quanto as novas previsões se concretizam e são replicadas por grupos independentes.
fonte
Eu diria simplesmente que o teste de hipótese nula é realmente apenas sobre a hipótese nula. E, geralmente, a hipótese nula geralmente não é de interesse e pode até não ser "o status quo" - especialmente no tipo de regressão do teste de hipótese. Freqüentemente, nas ciências sociais, não existe status quo; portanto, a hipótese nula pode ser bastante arbitrária. Isso faz uma enorme diferença para a análise, pois o ponto de partida é indefinido; portanto, diferentes pesquisas começam com diferentes hipóteses nulas, provavelmente com base em quaisquer dados disponíveis. Compare isso com algo como as leis do movimento de Newton - faz sentido ter isso como hipótese nula e tente encontrar melhores teorias a partir deste ponto de partida.
Além disso, os valores de p não calculam a probabilidade correta - não queremos saber sobre probabilidades de cauda, a menos que a hipótese alternativa seja mais provável à medida que você avança nas caudas. O que você realmente quer é o quão bem a teoria prevê o que realmente foi visto. Por exemplo, suponha que prevejo que haja 50% de chance de um "banho de luz", e meu concorrente prevê que há 75% de chance. Isso acaba sendo correto, e observamos um banho leve. Agora, ao decidir qual meteorologista está correto, você não deve dar crédito adicional à minha previsão por dar 40% de chance de uma "tempestade" ou tirar o crédito do meu concorrente por dar uma chance de 0% à "tempestade".
Isso é especialmente verdadeiro no exemplo que Gelman critica - houve realmente apenas uma hipótese testada, e não se pensou muito em a) quais são as explicações alternativas (particularmente sobre confusão e efeitos não controlados), b) quanto são as alternativas apoiadas por pesquisas anteriores e, mais importante, c) que previsões eles fazem (se houver) que são substancialmente diferentes do nulo?
fonte