Como justificar rigorosamente as taxas de erro falso-positivas / falso-negativas escolhidas e a relação de custo subjacente?

12

Contexto

Um grupo de cientistas sociais e estatísticos ( Benjamin et al., 2017 ) sugeriu recentemente que a taxa de falso positivo típica ( α = 0,05) usada como limiar para determinar a "significância estatística" precisa ser ajustada para um limiar mais conservador ( α = 0,005). Um grupo concorrente de cientistas sociais e estatísticos ( Lakens et al., 2018 ) respondeu, argumentando contra o uso deste - ou de qualquer outro - limite arbitrariamente selecionado. A seguir, uma citação de Lakens et al. (p. 16) que ajuda a exemplificar o assunto da minha pergunta:

Idealmente, o nível alfa é determinado pela comparação de custos e benefícios com uma função de utilidade usando a teoria da decisão. Essa análise de custo-benefício (e, portanto, o nível alfa) difere ao analisar grandes conjuntos de dados existentes em comparação à coleta de dados de amostras difíceis de obter. A ciência é diversa, e cabe aos cientistas justificar o nível alfa que eles decidem usar. ... A pesquisa deve ser guiada por princípios de ciência rigorosa, não por heurísticas e limiares arbitrários.

Questão

Estou imaginando como alguém poderia justificar um alfa escolhido de uma maneira "guiada por princípios de ciência rigorosa", como Lakens et al. sugerir, na maioria dos contextos das ciências sociais (ou seja, fora de casos selecionados em que se tem uma qualidade mais concreta, como lucro, para otimizar)?

Após a divulgação de Lakens et al., Comecei a ver calculadoras online circulando para ajudar os pesquisadores a tomar essa decisão. Ao usá-los, os pesquisadores precisam especificar uma "relação de custo" de erros falso-positivos e falso-negativos. No entanto, como esta calculadora aqui sugere, determinando tal relação custo um pode envolver um monte de adivinhar-obra quantitativa:

Embora alguns custos de erro sejam fáceis de quantificar em termos monetários (custos diretos), outros são difíceis de atribuir uma quantia dolar (custos indiretos). ... Apesar de ser difícil quantificar, você deve fazer um esforço para colocar um número para eles.

Por exemplo, embora Lakens et al. sugerir o estudo de amostras difíceis de alcançar como um fator que se pode considerar na justificação do alfa, parece que ainda resta adivinhar o quão difícil é alcançar essa amostra e, assim, como ajustar a seleção do alfa de acordo. Como outro exemplo, parece-me difícil quantificar o custo de publicação de um falso positivo, em termos de quanto tempo / dinheiro outros comprometem posteriormente a prosseguir pesquisas baseadas na inferência equivocada.

Se determinar essa relação de custo é, em grande parte, uma questão subjetiva de adivinhação, fico me perguntando se essas decisões podem (novamente, além de otimizar algo como lucro) ser "justificadas". Ou seja, de uma maneira que existe fora das premissas feitas sobre amostragem, trade-offs, impacto, etc.,? Dessa forma, determinar uma relação de custo de erros falso-positivos / falso-negativos parece, para mim, algo semelhante à seleção de um anterior na inferência bayesiana - uma decisão que pode ser um pouco subjetiva, influenciar os resultados e, portanto, debater-se. embora eu não tenha certeza de que seja uma comparação razoável.

Sumário

Para tornar minha pergunta concreta:

  1. As taxas falso-positivas / falso-negativas e suas taxas de custo podem ser "rigorosamente" justificadas na maioria dos contextos das ciências sociais?
  2. Nesse caso, quais são os princípios generalizáveis ​​que se pode seguir para justificar essas escolhas analíticas (e talvez um exemplo ou dois deles em ação)
  3. Se não, é minha analogia da subjetividade potencial na escolha de razões de custo - como sendo semelhante à seleção anterior bayesiana - é razoável?

Referências

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 de julho). Redefina a significância estatística. Obtido em psyarxiv.com/mky9j

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 de janeiro). Justifique seu Alfa. Obtido em psyarxiv.com/9s3y6

jsakaluk
fonte
4
Você pode definir como está usando "objetivamente justificado?" As probabilidades de erro do tipo I são uma preferência do pesquisador ... assim como as probabilidades de erro do tipo II a priori . De que maneira um pesquisador "justificaria objetivamente", por exemplo, uma agenda de pesquisa preferida, um colaborador ou financiador de pesquisas preferencial ou uma abordagem preferida de treinamento e orientação de assistente de pesquisa?
Alexis
1
Objetivamente justificado como em mais do que uma mera preferência. O artigo de Lakens et al., Atualmente circula sob o título abreviado "JYA" [Justify Your Alpha], e minha leitura do argumento deles, com base nas citações acima, é que nenhuma preferência antiga servirá. Para ser claro: não estou necessariamente apresentando o argumento de que alguém pode justificar objetivamente uma taxa de erro do tipo I / II escolhida. Antes, minha investigação tem como premissa a interpretação de Lakens et al. sugerir que você pode, e se for esse o caso, então eu não entendo como alguém faria isso.
jsakaluk
3
Não vejo a palavra "objetivamente" nesta citação de Lakens et al. Eles realmente o usam em seus papéis? Em caso afirmativo, talvez você possa adicionar outra citação para fornecer um contexto mais específico? Caso contrário, não tenho certeza de que você possa dizer coisas como "justificando objetivamente um alfa escolhido, como sugerem Lakens et al.".
Ameba diz Reinstate Monica
2
Eu atualizei a postagem, que agora é despida de "objetividade". Não era minha intenção descaracterizar o argumento, mas posso entender se os leitores pensaram que eu escrevi descuidadamente. Lakens et al. não usar o descritor de "guiado por princípios de rigor científico", por isso a minha pergunta é agora no fundamento mais seguro. Ainda me pergunto, no entanto, o que isso pode significar; como a adivinhação parece necessária é mais rigorosa do que uma heurística? Se isso faz diferença, estou especialmente curioso sobre como um realista científico alcançaria um padrão de justificação "cientificamente rigorosa" para alfa.
jsakaluk
2
α

Respostas:

1

(também publicado no twitter, mas republicado aqui) Minha tentativa de resposta: não acho que uma justificativa possa ser "puramente" objetiva, mas pode ser baseada em critérios que são defensáveis ​​por razões racionais / empíricas. Eu acho que o RSS é um exemplo de como você poderia justificar p <0,005 para certos tipos de pesquisa, mas também acho que há outras circunstâncias em que um alfa diferente seria mais ideal do que <0,005 (maior ou menor), dependendo de o que alfa é viável e qual é o objetivo do estudo. Por exemplo, se você tem 5.000 participantes e o menor tamanho de efeito de interesse é 0,10, convém usar p <0,001 e ter 90% de poder (todos os números são compostos). Por outro lado, digamos que você faça um pequeno experimento como "prova de conceito" inicial para a linha de pesquisa. Você pode ter N = 100, p <0,10, 90% de potência,

Mark Hoffarth
fonte
1

Ultimamente, tenho pensado muito sobre a mesma pergunta e acho que muitos outros na psicologia também.

Primeiro, cada uma de suas perguntas diz respeito a se uma escolha é feita objetivamente versus subjetivamente, mas (como outros aqui observaram) você não explicou completamente o que constituiria (na sua opinião) uma escolha objetiva versus subjetiva.

Talvez você esteja interessado no artigo de Gelman & Hennig 2015 que descompacta uma variedade de valores envolvidos no uso comum dos rótulos “objetivo” e “subjetivo” na ciência. Em sua formulação, “objetivo” se refere a valores de transparência, consenso, imparcialidade e correspondência com a realidade observável, enquanto “subjetivo” se refere a valores de múltiplas perspectivas e dependência de contexto.

Em relação à sua pergunta 3, na visão bayesiana, a probabilidade é definida como quantificação da incerteza sobre o mundo. Pelo que entendi, existe uma tensão aparente entre as escolas bayesianas “subjetivistas” (probabilidades refletem estados de crença individuais) e escolas de pensamento “objetivistas bayesianas” (probabilidades refletem plausibilidade de consenso). Dentro da escola objetivista, há uma ênfase mais forte na justificativa da distribuição anterior (e do modelo em geral) de uma maneira transparente, compatível com o consenso e que pode ser verificada, mas a escolha do modelo certamente depende do contexto (isto é, depende do estado do conhecimento de consenso para um problema específico).

Na concepção freqüentista, as probabilidades refletem o número de vezes que um evento ocorrerá, com infinitas repetições independentes. Dentro da estrutura de Neyman-Pearson, estipula-se uma hipótese alternativa precisa e um alfa preciso, aceita a nula precisa ou a alternativa precisa (que o efeito populacional é exatamente igual ao estipulado) com base nos dados e, em seguida, relata o frequência de longo prazo de fazê-lo por engano.

Dentro dessa estrutura, raramente temos uma estimativa pontual precisa do tamanho do efeito da população, mas uma gama de valores plausíveis. Portanto, dependendo de um determinado alfa, não temos uma estimativa precisa da taxa de erro do Tipo 2, mas um intervalo de taxas de erro plausíveis do Tipo 2. Da mesma forma, eu concordo com o seu argumento geral de que normalmente não temos uma noção precisa de quais serão os custos e benefícios de um erro do Tipo 1 ou um erro do Tipo 2. Ou seja, muitas vezes nos deparamos com uma situação em que temos informações muito incompletas sobre qual deveria ser a nossa hipótese e ainda menos informações sobre quais seriam os custos e benefícios relativos de aceitar ou rejeitar essa hipótese.

às suas perguntas:

  1. As taxas falso-positivas / falso-negativas e suas razões de custo podem ser objetivamente justificadas na maioria dos contextos das ciências sociais?

Acho que sim, na medida em que uma justificativa pode ser transparente, comportar-se com consenso, ser imparcial e corresponder à realidade (na medida em que estamos usando as melhores informações disponíveis que temos sobre custos e benefícios).

No entanto, acho que essas justificativas também são subjetivas, pois podem haver várias perspectivas válidas sobre como definir alfa para um determinado problema, e naquilo que constitui um alfa apropriado pode ser significativamente dependente do contexto.

Por exemplo, nos últimos anos, ficou claro que muitos efeitos na literatura refletem erros do Tipo M ou Tipo S. Eles também podem refletir erros do Tipo 1, na medida em que um estudo de replicação é capaz de fornecer evidências para o efeito nulo exatamente zero.

Relacionado a essa observação, existe um consenso emergente de que o limiar do valor-p para uma reivindicação com certeza deve ser o mesmo ou tornado mais rigoroso (ou seja, ninguém está argumentando por um aumento geral de alfa para 0,10 ou 0,20) . Da mesma forma, existe um consenso emergente de que os valores de p não devem ser usados ​​como critério para publicação (por exemplo, o formato do Relatório Registrado).

Para mim, isso reflete um tipo de fonte "objetiva" de informação - ou seja, para minha leitura, há um consenso crescente de que falsas alegações são caras para o campo (mesmo que não possamos colocar uma quantia em dólar nesses custos). Na minha leitura, não há consenso claro de que não atingir um limite de valor-p seja um custo dramático para o campo. Se houver custos, eles podem ser mitigados se a falha em atingir um limite de valor-p não afetar se a estimativa o transformará em um artigo publicado.

  1. Nesse caso, quais são os princípios generalizáveis ​​que se pode seguir para justificar essas escolhas analíticas (e talvez um exemplo ou dois deles em ação)

Não tenho certeza, mas preferiria algum tipo de princípio de que as decisões devem ser tomadas com base em julgamentos transparentes (locais ou globais) sobre os custos e benefícios de diferentes tipos de escolhas analíticas em um contexto particular, mesmo em o rosto de informações lamentavelmente incompletas sobre o que esses custos e benefícios podem ser.

  1. Se não, é minha analogia da subjetividade potencial na escolha de razões de custo - como sendo semelhante à seleção anterior bayesiana - é razoável?

Sim, nas tradições frequentistas e bayesianas, há espaço para a subjetividade (ou seja, múltiplas perspectivas e dependência de contexto), bem como a objetividade (ou seja, transparência, consenso, imparcialidade e correspondência com a realidade observável) em muitos aspectos diferentes de um modelo estatístico e como esse modelo é usado (o prior escolhido, a probabilidade escolhida, o limite de decisão escolhido etc.).

fermento
fonte
Esta é uma boa resposta. Uma peça sobre a qual não tenho tanta certeza é a reivindicação de correspondência. Se entendermos esse termo da mesma maneira (estou pensando em termos da teoria da correspondência da verdade), então, na verdade, parece que a correspondência pode estar em um terreno instável se não tivermos uma idéia precisa dos custos do Tipo Erros I / II. Em vez disso, parece que há uma reivindicação melhor de coerência (dadas essas suposições iniciais, o resto dos números "faz sentido") ou pragmatismo (nossa suposição dos custos de erro do tipo I / II é uma ficção útil para o planejamento do estudo).
jsakaluk
Talvez eu esteja me esforçando demais para casar a "justificação" com uma perspectiva realista / de correspondência e, nessas outras formas de entendimento, as taxas de erro do tipo I / II podem ser escolhidas de uma maneira "justificada"?
jsakaluk
Obrigado por me indicar essas idéias. Eu diria que, em qualquer contexto, podemos ter boas informações sobre quais são os custos e benefícios futuros, ou podemos ter informações muito ruins. Em um sentido bastante grosseiro, há um consenso crescente de que os falsos positivos (p <limiar, o efeito verdadeiro é exatamente zero) podem ser mais prejudiciais para o campo do que os casos de falha em atingir um limite de significância (mas publicando a estimativa de qualquer maneira). Em circunstâncias locais específicas, pode haver custos mais sérios associados à falha em atingir um limite de significância.
sourdough
Tangencialmente, os conceitos de “alfa” e “erro do tipo 2” existem apenas na estrutura do NP, em que o analista especificou duas hipóteses precisas e se compromete a aceitar uma ou outra no final do procedimento. No entanto, na prática comum, os analistas costumam ser advertidos a não aceitar o nulo com base em uma estimativa não significativa com poder incerto, essencialmente revertendo para uma interpretação no estilo Fisher, onde não há como aceitar o nulo e nenhum "erro do tipo 2".
sourdough
1
É divertido para mim que as redes sociais, a classe social e as interações sociais por trás de sua descrição de "consenso" estejam de alguma forma divorciadas das crenças e valores subjetivos subjacentes a todas elas.
Alexis