Se várias comparações são "planejadas", você ainda precisa corrigir várias comparações?

20

Estou revendo um artigo que realizou mais de 15 testes separados 2x2 Chi Square. Sugeri que eles precisam corrigir várias comparações, mas eles responderam dizendo que todas as comparações foram planejadas e, portanto, isso não é necessário.

Sinto que isso não deve estar correto, mas não consigo encontrar recursos que indiquem explicitamente se esse é o caso.

Alguém pode ajudar com isso?


Atualizar:

Obrigado por todas as suas respostas muito úteis. Em resposta à solicitação de @ gung para obter mais informações sobre o estudo e as análises, eles estão comparando dados de contagem de dois tipos de participantes (estudantes, não estudantes) em duas condições, em três períodos de tempo. Os vários testes 2x2 Chi Square estão comparando cada período de tempo, em cada condição, para cada tipo de participante (se isso faz sentido; por exemplo, alunos, condição 1, período 1 versus período 2), portanto todas as análises estão testando a mesma hipótese .

DrJay
fonte
2
Muitas pessoas que realizam múltiplas comparações planejam fazer todas elas a priori . Eles fazem isso porque desejam controlar a taxa de erro geral do tipo I. Em algumas situações, pode ser razoável não corrigir várias comparações, mas não é apenas uma questão de planejar fazer todas elas desde o início.
Glen_b -Reinstala Monica
3
Você pode falar um pouco mais sobre o estudo, seus dados e análises? Os> 15 representam todas as comparações possíveis, ou apenas uma pequena porcentagem? Quantos dados eles têm? Quão plausível é que as hipóteses fossem todas a priori? Eles são todos significativos? Os testes qui-quadrado são independentes um do outro? Considere também algumas das perguntas levantadas na resposta do @ peuhp.
gung - Restabelece Monica
4
Como "eles" provavelmente estão interessados ​​em encontrar resultados significativos, a resposta deles é egoísta. Portanto, cabe a eles demonstrar por que a abordagem deles é legítima, e não a mostrar que é ilegítimo. Qualquer tentativa de mostrar que várias correções de comparações podem ser negligenciadas falhará assim que considerar a taxa de falsos positivos em todo o papel e, portanto, "eles" devem (de maneira dissimulada) evitar toda consideração desse problema ou fornecer um bom argumento a respeito de por que não é uma preocupação para o público-alvo.
whuber
1
Eu ficaria muito tentado a responder com um link para essa faixa XKCD (que, como você pode observar, envolve uma série totalmente planejada de vários testes ...).
Ilmari Karonen

Respostas:

21

Esta é uma questão complexa do IMHO e gostaria de fazer três comentários sobre esta situação.

Primeiro e geralmente, eu focaria mais se você enfrenta um estudo confirmatório com um conjunto de hipóteses bem definidas definidas em um contexto argumentativo ou um estudo explicativo no qual muitos indicadores prováveis ​​são observados do que planejados ou não (porque você pode simplesmente planeje fazer todas as comparações possíveis).

Segundo, eu também focaria em como os valores p resultantes são discutidos. Eles são usados ​​individualmente para servir um conjunto de conclusões definitivas ou são discutidos em conjunto como evidência e falta de evidência?

Por fim, discutiria a possibilidade de que a hipótese> 15 resultante dos testes qui-quadrado> 15 sejam de fato a expressão de poucas hipóteses (talvez uma única) que possam ser resumidas.

De maneira mais geral, independentemente de a hipótese ser pré-especificada ou não, corrigir ou não comparações múltiplas é uma questão do que você inclui no erro do tipo I. Ao não corrigir o MC, você mantém apenas um controle de taxa de erro tipo I por comparação. Portanto, no caso de inúmeras comparações, você tem uma alta taxa de erro tipo I familiar e, portanto, é mais propenso a falsas descobertas.

peuhp
fonte
8
(+1) Pode valer a pena mencionar que a taxa de erro experimental não é controlada pelas quinze comparações individuais que estão sendo planejadas; por outro lado, possíveis comparações além das quinze não previstas no protocolo não precisam ser levadas em consideração na correção de múltiplas comparações.
Scortchi - Restabelece Monica
@ Scortchi Obrigado pela sua opinião, mas não entendo o que você quer dizer com "taxa de erro experimental não é controlada pelas quinze comparações individuais que estão sendo planejadas"?
peuhp
1
Apenas o ponto básico de que, se você deseja controlar a probabilidade sob o nulo de cometer um ou mais erros do tipo I em todos esses testes, é necessário usar um procedimento de comparações múltiplas. Só o mencionei porque já me deparei com uma questão antes.
Scortchi - Restabelecer Monica
2
Observe que esse mesmo problema surgiu em um segmento muito recente: aplicativo Post Hoc de várias comparações .
Michael R. Chernick
1
@Scortchi. Ok, obrigado por esse esclarecimento e contribuição, isso deve realmente estar claramente especificado na minha resposta. Irá adicionar isso.
peuhp
5

Dada a sua atualização no design, sugiro que eles façam alguma forma de modelo log-linear para usar todos os dados de uma só vez. Fazer as análises de refeição por peça que eles fizeram parece (a) ineficiente (b) não-científico, pois testa 15 hipóteses em que certamente há menos hipóteses reais.

Eu não sou um fã de corrigir a multiplicidade como um reflexo condicionado, mas neste caso, se eles rejeitarem uma abordagem analítica mais profunda, eu sugeriria que eles corrigissem.

mdewey
fonte
1
Se todos os testes testarem a mesma hipótese, também é possível usar alguma ferramenta meta-analítica para "combinar" os resultados dos 15 testes em um. Você é especialista em metanálise, portanto, talvez possa sugerir algo mais específico. Como a coisa mais simples, vi pessoas calculando o valor-p para obter resultados significativos em testes; mas isso pressupõe independência que, no caso do OP, obviamente não é verdadeira. 15k15
Ameba diz Reinstate Monica
1
@amoeba Acho que seria o último recurso, pois não posso deixar de sentir que deve haver uma maneira melhor de analisar isso do que 15 . χ2
mdewey
4

Se você substituir a palavra 'premeditado' por 'planejado', isso poderá ajudar a dissipar o argumento oferecido pelos autores. Considere duas análises estatísticas diferentes dos mesmos dados:

  1. Um 'crime premeditado', no qual todos os testes de hipóteses possíveis são definidos combinatoriamente com antecedência por um 'cérebro criminoso estatístico', com o plano de tentar cada um sistematicamente e escolher o teste com o menor valor p como a 'descoberta principal' promover nas seções Resultados, Discussão e Conclusão do artigo, e também o Título.
  2. Um 'crime de paixão' no qual a intenção inicial era apenas confrontar os dados com uma hipótese, mas "bem ... uma coisa leva a outra" e vários testes ad hoc de hipóteses "simplesmente acontecem" no calor da paixão científica para aprenda "algo ... qualquer coisa! " a partir dos dados.

De qualquer maneira, é 'assassinato' - a questão é se está no Primeiro Grau ou no Segundo Grau. Claramente, o primeiro é moralmente mais problemático. Parece-me que os autores aqui estão tentando reivindicar algo no sentido de que não foi assassinato porque foi premeditado.

David C. Norris
fonte
4
Mas fazer comparações múltiplas não é crime, premeditado ou não. P-caça é.
Cliff AB
1

Este artigo aborda diretamente sua pergunta: http://jrp.icaap.org/index.php/jrp/article/view/514/417

(Frane, AV, "Testes de hipóteses planejadas não são necessariamente isentos de ajuste de multiplicidade", Journal of Research Practice, 2015)

Bonferroni
fonte