Contexto
Um grupo de cientistas sociais e estatísticos ( Benjamin et al., 2017 ) sugeriu recentemente que a taxa de falso positivo típica ( = 0,05) usada como limiar para determinar a "significância estatística" precisa ser ajustada para um limiar mais conservador ( = 0,005). Um grupo concorrente de cientistas sociais e estatísticos ( Lakens et al., 2018 ) respondeu, argumentando contra o uso deste - ou de qualquer outro - limite arbitrariamente selecionado. A seguir, uma citação de Lakens et al. (p. 16) que ajuda a exemplificar o assunto da minha pergunta:
Idealmente, o nível alfa é determinado pela comparação de custos e benefícios com uma função de utilidade usando a teoria da decisão. Essa análise de custo-benefício (e, portanto, o nível alfa) difere ao analisar grandes conjuntos de dados existentes em comparação à coleta de dados de amostras difíceis de obter. A ciência é diversa, e cabe aos cientistas justificar o nível alfa que eles decidem usar. ... A pesquisa deve ser guiada por princípios de ciência rigorosa, não por heurísticas e limiares arbitrários.
Questão
Estou imaginando como alguém poderia justificar um alfa escolhido de uma maneira "guiada por princípios de ciência rigorosa", como Lakens et al. sugerir, na maioria dos contextos das ciências sociais (ou seja, fora de casos selecionados em que se tem uma qualidade mais concreta, como lucro, para otimizar)?
Após a divulgação de Lakens et al., Comecei a ver calculadoras online circulando para ajudar os pesquisadores a tomar essa decisão. Ao usá-los, os pesquisadores precisam especificar uma "relação de custo" de erros falso-positivos e falso-negativos. No entanto, como esta calculadora aqui sugere, determinando tal relação custo um pode envolver um monte de adivinhar-obra quantitativa:
Embora alguns custos de erro sejam fáceis de quantificar em termos monetários (custos diretos), outros são difíceis de atribuir uma quantia dolar (custos indiretos). ... Apesar de ser difícil quantificar, você deve fazer um esforço para colocar um número para eles.
Por exemplo, embora Lakens et al. sugerir o estudo de amostras difíceis de alcançar como um fator que se pode considerar na justificação do alfa, parece que ainda resta adivinhar o quão difícil é alcançar essa amostra e, assim, como ajustar a seleção do alfa de acordo. Como outro exemplo, parece-me difícil quantificar o custo de publicação de um falso positivo, em termos de quanto tempo / dinheiro outros comprometem posteriormente a prosseguir pesquisas baseadas na inferência equivocada.
Se determinar essa relação de custo é, em grande parte, uma questão subjetiva de adivinhação, fico me perguntando se essas decisões podem (novamente, além de otimizar algo como lucro) ser "justificadas". Ou seja, de uma maneira que existe fora das premissas feitas sobre amostragem, trade-offs, impacto, etc.,? Dessa forma, determinar uma relação de custo de erros falso-positivos / falso-negativos parece, para mim, algo semelhante à seleção de um anterior na inferência bayesiana - uma decisão que pode ser um pouco subjetiva, influenciar os resultados e, portanto, debater-se. embora eu não tenha certeza de que seja uma comparação razoável.
Sumário
Para tornar minha pergunta concreta:
- As taxas falso-positivas / falso-negativas e suas taxas de custo podem ser "rigorosamente" justificadas na maioria dos contextos das ciências sociais?
- Nesse caso, quais são os princípios generalizáveis que se pode seguir para justificar essas escolhas analíticas (e talvez um exemplo ou dois deles em ação)
- Se não, é minha analogia da subjetividade potencial na escolha de razões de custo - como sendo semelhante à seleção anterior bayesiana - é razoável?
Referências
Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 de julho). Redefina a significância estatística. Obtido em psyarxiv.com/mky9j
Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 de janeiro). Justifique seu Alfa. Obtido em psyarxiv.com/9s3y6
Respostas:
(também publicado no twitter, mas republicado aqui) Minha tentativa de resposta: não acho que uma justificativa possa ser "puramente" objetiva, mas pode ser baseada em critérios que são defensáveis por razões racionais / empíricas. Eu acho que o RSS é um exemplo de como você poderia justificar p <0,005 para certos tipos de pesquisa, mas também acho que há outras circunstâncias em que um alfa diferente seria mais ideal do que <0,005 (maior ou menor), dependendo de o que alfa é viável e qual é o objetivo do estudo. Por exemplo, se você tem 5.000 participantes e o menor tamanho de efeito de interesse é 0,10, convém usar p <0,001 e ter 90% de poder (todos os números são compostos). Por outro lado, digamos que você faça um pequeno experimento como "prova de conceito" inicial para a linha de pesquisa. Você pode ter N = 100, p <0,10, 90% de potência,
fonte
Ultimamente, tenho pensado muito sobre a mesma pergunta e acho que muitos outros na psicologia também.
Primeiro, cada uma de suas perguntas diz respeito a se uma escolha é feita objetivamente versus subjetivamente, mas (como outros aqui observaram) você não explicou completamente o que constituiria (na sua opinião) uma escolha objetiva versus subjetiva.
Talvez você esteja interessado no artigo de Gelman & Hennig 2015 que descompacta uma variedade de valores envolvidos no uso comum dos rótulos “objetivo” e “subjetivo” na ciência. Em sua formulação, “objetivo” se refere a valores de transparência, consenso, imparcialidade e correspondência com a realidade observável, enquanto “subjetivo” se refere a valores de múltiplas perspectivas e dependência de contexto.
Em relação à sua pergunta 3, na visão bayesiana, a probabilidade é definida como quantificação da incerteza sobre o mundo. Pelo que entendi, existe uma tensão aparente entre as escolas bayesianas “subjetivistas” (probabilidades refletem estados de crença individuais) e escolas de pensamento “objetivistas bayesianas” (probabilidades refletem plausibilidade de consenso). Dentro da escola objetivista, há uma ênfase mais forte na justificativa da distribuição anterior (e do modelo em geral) de uma maneira transparente, compatível com o consenso e que pode ser verificada, mas a escolha do modelo certamente depende do contexto (isto é, depende do estado do conhecimento de consenso para um problema específico).
Na concepção freqüentista, as probabilidades refletem o número de vezes que um evento ocorrerá, com infinitas repetições independentes. Dentro da estrutura de Neyman-Pearson, estipula-se uma hipótese alternativa precisa e um alfa preciso, aceita a nula precisa ou a alternativa precisa (que o efeito populacional é exatamente igual ao estipulado) com base nos dados e, em seguida, relata o frequência de longo prazo de fazê-lo por engano.
Dentro dessa estrutura, raramente temos uma estimativa pontual precisa do tamanho do efeito da população, mas uma gama de valores plausíveis. Portanto, dependendo de um determinado alfa, não temos uma estimativa precisa da taxa de erro do Tipo 2, mas um intervalo de taxas de erro plausíveis do Tipo 2. Da mesma forma, eu concordo com o seu argumento geral de que normalmente não temos uma noção precisa de quais serão os custos e benefícios de um erro do Tipo 1 ou um erro do Tipo 2. Ou seja, muitas vezes nos deparamos com uma situação em que temos informações muito incompletas sobre qual deveria ser a nossa hipótese e ainda menos informações sobre quais seriam os custos e benefícios relativos de aceitar ou rejeitar essa hipótese.
às suas perguntas:
Acho que sim, na medida em que uma justificativa pode ser transparente, comportar-se com consenso, ser imparcial e corresponder à realidade (na medida em que estamos usando as melhores informações disponíveis que temos sobre custos e benefícios).
No entanto, acho que essas justificativas também são subjetivas, pois podem haver várias perspectivas válidas sobre como definir alfa para um determinado problema, e naquilo que constitui um alfa apropriado pode ser significativamente dependente do contexto.
Por exemplo, nos últimos anos, ficou claro que muitos efeitos na literatura refletem erros do Tipo M ou Tipo S. Eles também podem refletir erros do Tipo 1, na medida em que um estudo de replicação é capaz de fornecer evidências para o efeito nulo exatamente zero.
Relacionado a essa observação, existe um consenso emergente de que o limiar do valor-p para uma reivindicação com certeza deve ser o mesmo ou tornado mais rigoroso (ou seja, ninguém está argumentando por um aumento geral de alfa para 0,10 ou 0,20) . Da mesma forma, existe um consenso emergente de que os valores de p não devem ser usados como critério para publicação (por exemplo, o formato do Relatório Registrado).
Para mim, isso reflete um tipo de fonte "objetiva" de informação - ou seja, para minha leitura, há um consenso crescente de que falsas alegações são caras para o campo (mesmo que não possamos colocar uma quantia em dólar nesses custos). Na minha leitura, não há consenso claro de que não atingir um limite de valor-p seja um custo dramático para o campo. Se houver custos, eles podem ser mitigados se a falha em atingir um limite de valor-p não afetar se a estimativa o transformará em um artigo publicado.
Não tenho certeza, mas preferiria algum tipo de princípio de que as decisões devem ser tomadas com base em julgamentos transparentes (locais ou globais) sobre os custos e benefícios de diferentes tipos de escolhas analíticas em um contexto particular, mesmo em o rosto de informações lamentavelmente incompletas sobre o que esses custos e benefícios podem ser.
Sim, nas tradições frequentistas e bayesianas, há espaço para a subjetividade (ou seja, múltiplas perspectivas e dependência de contexto), bem como a objetividade (ou seja, transparência, consenso, imparcialidade e correspondência com a realidade observável) em muitos aspectos diferentes de um modelo estatístico e como esse modelo é usado (o prior escolhido, a probabilidade escolhida, o limite de decisão escolhido etc.).
fonte