Eu tenho esses grupos em que os valores são respostas a um item do Likert de 10 pontos:
g1 <- c(10,9,10,9,10,8,9)
g2 <- c(4,9,4,9,8,8,8)
g3 <- c(9,7,9,4,8,9,10)
Portanto, usei Kruskal-Wallis para determinar quaisquer diferenças entre as respostas nos grupos, e o resultado foi:
Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091
No entanto, se eu executar um teste exato de Mann-Whitney entre os grupos g1 e g2, recebo:
Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test)
Z = 2.3939, p-value = 0.02797
que retorna uma diferença significativa em alfa = 0,05.
Qual teste devo escolher e por quê?
Respostas:
Concordo com a resposta de Michael Chernick, mas acho que ela pode ser um pouco mais forte. Ignore o corte de 0,05 na maioria das circunstâncias. É relevante apenas para a abordagem de Neyman-Pearson, que é amplamente irrelevante para o uso inferencial da estatística em muitas áreas da ciência.
Ambos os testes indicam que seus dados contêm evidências moderadas contra a hipótese nula. Considere essas evidências à luz do que você sabe sobre o sistema e das consequências que decorrem das decisões (ou indecisões) sobre o estado do mundo real. Argumente um caso fundamentado e proceda de uma maneira que reconheça a possibilidade de subsequente reavaliação.
Explico mais neste artigo: http://www.ncbi.nlm.nih.gov/pubmed/22394284
[Adendo adicionado em novembro de 2019: tenho uma nova referência que explica os problemas com mais detalhes https://arxiv.org/abs/1910.02042v1 ]
fonte
Qualquer pensamento que você possa ter de que os resultados são contraditórios teria que vir de pensar em um corte de 0,05 como limite preto e branco sem área cinza na faixa de 0,05. Eu acho que esses resultados são razoáveis e bastante compatíveis.
fonte
Os resultados do teste U de Kruskal-Wallis e Mann-Whitney podem diferir porque
Portanto, não é recomendável usar o teste U de Mann-whitney como um teste post hoc após o teste de Kruskal-Wallis.
Outros testes, como o teste de Dunn (comumente usado), os testes de Conover-Iman e Dwass-Steel-Citchlow-Fligner, podem ser usados como teste post-hoc para o teste de kruskal-wallis.
fonte
Isso é uma resposta ao @vinesh, além de examinar o princípio geral da pergunta original.
Existem realmente duas questões aqui com várias comparações: à medida que aumentamos o número de comparações feitas, temos mais informações que facilitam a visualização de diferenças reais, mas o aumento do número de comparações também facilita a visualização de diferenças que não existem (falsos positivos, dragagem de dados, tortura dos dados até que confesse).
Pense em uma turma com 100 alunos, cada um deles recebe uma moeda justa e é instruído a jogar a moeda 10 vezes e usar os resultados para testar a hipótese nula de que a proporção de cabeças é de 50%. Esperamos que os valores de p variem entre 0 e 1 e, por acaso, esperamos ver cerca de 5 dos alunos obtendo valores de p inferiores a 0,05. De fato, ficaríamos muito surpresos se nenhum deles obtivesse um valor p menor que 0,05 (menor que 1% de chance disso acontecer). Se apenas olharmos para os poucos valores significativos e ignorarmos todos os outros, concluiremos falsamente que as moedas são tendenciosas, mas se usarmos uma técnica que leva em conta as múltiplas comparações, provavelmente ainda julgaremos corretamente que as moedas são justas (ou pelo menos deixar de rejeitar que são justos).
Por outro lado, considere um caso semelhante em que temos 10 alunos lançando um dado e determinando se o valor está no conjunto {1,2,3} ou no conjunto {4,5,6}, cada um dos quais terá 50% dê uma chance a cada jogada se o dado for justo (mas pode ser diferente se o dado for manipulado). Todos os 10 alunos calculam valores p (nulo é 50%) e obtêm valores entre 0,06 e 0,25. Agora, neste caso, nenhum deles atingiu o limite mágico de 5%, portanto, olhar para os resultados de qualquer aluno individualmente não resultará em uma declaração não justa, mas todos os valores de p são menores que 0,5, se todos os dados forem justos então os valores de p devem ser distribuídos uniformemente e têm 50% de chance de estar acima de 0,5. A chance de obter 10 valores de p independentes, todos inferiores a 0,5, quando os nulos são verdadeiros, é menor que a mágica 0,05 e isso sugere que os dados são tendenciosos,
Agora, o lançamento de moedas e a rolagem de matrizes são um pouco artificial, então um exemplo diferente: eu tenho uma nova droga que quero testar. Meu orçamento me permite testar a droga em 1.000 indivíduos (essa será uma comparação emparelhada, com cada sujeito sendo seu próprio controle). Estou considerando dois modelos de estudo diferentes; no primeiro, recruto 1.000 indivíduos para o estudo e relatam um único valor p. No segundo desenho, recruto 1.000 sujeitos, mas os divido em 100 grupos de 10 cada, faço o estudo em cada um dos 100 grupos de 10 e calculo um valor p para cada grupo (100 valores totais p). Pense nas possíveis diferenças entre as 2 metodologias e como as conclusões podem diferir. Uma abordagem objetiva exigiria que ambos os modelos de estudo levassem à mesma conclusão (considerando os mesmos 1.000 pacientes e todo o resto é o mesmo).
@mljrg, por que você escolheu comparar g1 e g2? Se essa era uma questão de interesse antes de coletar qualquer dado, o valor p de MW é razoável e significativo; no entanto, se você fez o teste de KW, olhou para ver quais 2 grupos eram os mais diferentes e fez o teste de MW apenas naqueles que parecia o mais diferente, as suposições para o teste de MW foram violadas e o valor de p de MW não faz sentido e o valor de p de KW é o único com significado potencial.
fonte