Estou revendo um artigo que realizou mais de 15 testes separados 2x2 Chi Square. Sugeri que eles precisam corrigir várias comparações, mas eles responderam dizendo que todas as comparações foram planejadas e, portanto, isso não é necessário.
Sinto que isso não deve estar correto, mas não consigo encontrar recursos que indiquem explicitamente se esse é o caso.
Alguém pode ajudar com isso?
Atualizar:
Obrigado por todas as suas respostas muito úteis. Em resposta à solicitação de @ gung para obter mais informações sobre o estudo e as análises, eles estão comparando dados de contagem de dois tipos de participantes (estudantes, não estudantes) em duas condições, em três períodos de tempo. Os vários testes 2x2 Chi Square estão comparando cada período de tempo, em cada condição, para cada tipo de participante (se isso faz sentido; por exemplo, alunos, condição 1, período 1 versus período 2), portanto todas as análises estão testando a mesma hipótese .
Respostas:
Esta é uma questão complexa do IMHO e gostaria de fazer três comentários sobre esta situação.
Primeiro e geralmente, eu focaria mais se você enfrenta um estudo confirmatório com um conjunto de hipóteses bem definidas definidas em um contexto argumentativo ou um estudo explicativo no qual muitos indicadores prováveis são observados do que planejados ou não (porque você pode simplesmente planeje fazer todas as comparações possíveis).
Segundo, eu também focaria em como os valores p resultantes são discutidos. Eles são usados individualmente para servir um conjunto de conclusões definitivas ou são discutidos em conjunto como evidência e falta de evidência?
Por fim, discutiria a possibilidade de que a hipótese> 15 resultante dos testes qui-quadrado> 15 sejam de fato a expressão de poucas hipóteses (talvez uma única) que possam ser resumidas.
De maneira mais geral, independentemente de a hipótese ser pré-especificada ou não, corrigir ou não comparações múltiplas é uma questão do que você inclui no erro do tipo I. Ao não corrigir o MC, você mantém apenas um controle de taxa de erro tipo I por comparação. Portanto, no caso de inúmeras comparações, você tem uma alta taxa de erro tipo I familiar e, portanto, é mais propenso a falsas descobertas.
fonte
Dada a sua atualização no design, sugiro que eles façam alguma forma de modelo log-linear para usar todos os dados de uma só vez. Fazer as análises de refeição por peça que eles fizeram parece (a) ineficiente (b) não-científico, pois testa 15 hipóteses em que certamente há menos hipóteses reais.
Eu não sou um fã de corrigir a multiplicidade como um reflexo condicionado, mas neste caso, se eles rejeitarem uma abordagem analítica mais profunda, eu sugeriria que eles corrigissem.
fonte
Se você substituir a palavra 'premeditado' por 'planejado', isso poderá ajudar a dissipar o argumento oferecido pelos autores. Considere duas análises estatísticas diferentes dos mesmos dados:
De qualquer maneira, é 'assassinato' - a questão é se está no Primeiro Grau ou no Segundo Grau. Claramente, o primeiro é moralmente mais problemático. Parece-me que os autores aqui estão tentando reivindicar algo no sentido de que não foi assassinato porque foi premeditado.
fonte
Este artigo aborda diretamente sua pergunta: http://jrp.icaap.org/index.php/jrp/article/view/514/417
(Frane, AV, "Testes de hipóteses planejadas não são necessariamente isentos de ajuste de multiplicidade", Journal of Research Practice, 2015)
fonte