Qual resultado escolher quando Kruskal-Wallis e Mann-Whitney parecem retornar resultados contraditórios?

10

Eu tenho esses grupos em que os valores são respostas a um item do Likert de 10 pontos:

g1 <- c(10,9,10,9,10,8,9)
g2 <- c(4,9,4,9,8,8,8)
g3 <- c(9,7,9,4,8,9,10)

Portanto, usei Kruskal-Wallis para determinar quaisquer diferenças entre as respostas nos grupos, e o resultado foi:

Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091

No entanto, se eu executar um teste exato de Mann-Whitney entre os grupos g1 e g2, recebo:

Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test)
Z = 2.3939, p-value = 0.02797

que retorna uma diferença significativa em alfa = 0,05.

Qual teste devo escolher e por quê?

mljrg
fonte
1
Para alguns risos e sobre o tema de pontos de corte preto e branco: mchankins.wordpress.com/2013/04/21/still-not-significant-2
Hank

Respostas:

11

Concordo com a resposta de Michael Chernick, mas acho que ela pode ser um pouco mais forte. Ignore o corte de 0,05 na maioria das circunstâncias. É relevante apenas para a abordagem de Neyman-Pearson, que é amplamente irrelevante para o uso inferencial da estatística em muitas áreas da ciência.

Ambos os testes indicam que seus dados contêm evidências moderadas contra a hipótese nula. Considere essas evidências à luz do que você sabe sobre o sistema e das consequências que decorrem das decisões (ou indecisões) sobre o estado do mundo real. Argumente um caso fundamentado e proceda de uma maneira que reconheça a possibilidade de subsequente reavaliação.

Explico mais neste artigo: http://www.ncbi.nlm.nih.gov/pubmed/22394284

[Adendo adicionado em novembro de 2019: tenho uma nova referência que explica os problemas com mais detalhes https://arxiv.org/abs/1910.02042v1 ]

Michael Lew
fonte
@MichaelChernick Aprendi com você que há muito mais sobre estatística do que apenas procurar "p <0,05". Michael Lew: Eu baixei o seu artigo e lerei com certeza. Seguirei sua sugestão para ter um bom raciocínio sobre meus dados nessa situação. Obrigado a todos!
mljrg
3
@MichaelLew Não compartilho sua visão sombria da abordagem de Neyman-Pearson ao teste de hipóteses. Eu ainda acho que é fundamental a inferência freqüentista. É apenas a estrita adesão ao nível 0,05 a que me oponho.
Michael R. Chernick
@MichaelChernick Então, você está dizendo que deve-se escolher um ponto de corte antes do experimento, ou que você pode escolher depois que os resultados chegarem. O primeiro está OK, mas o segundo não. A abordagem de Neyman-Pearson lida com taxas de erro e a taxa de erro tipo I somente é protegida quando o ponto de corte de significância é escolhido com antecedência. Portanto, se você aconselha alguém que um pouco acima de 0,05 está perto o suficiente porque ele pode ter escolhido um ponto de corte mais alto, então você não está realmente usando a abordagem Neyman-Pearson, mas uma abordagem híbrida mal formada, como explico no artigo a seguir.
Michael Lew
As pessoas podem escolher 0,01, 0,05 ou 0,10, se quiserem. Isso deve ser feito sem ser influenciado pelos dados. Mas a escolha de 0,01 ou 0,05 não é o problema a que me refiro. É a crença em preto e branco no nível de significância, já que 0,049 significa significância estatística e 0,0501 não é!
Michael R. Chernick
Os cientistas são interessantes em evidências, mas não estão dependentes da metodologia usada para decidir o significado.
Michael R. Chernick 11/08/2012
13

12

12

Qualquer pensamento que você possa ter de que os resultados são contraditórios teria que vir de pensar em um corte de 0,05 como limite preto e branco sem área cinza na faixa de 0,05. Eu acho que esses resultados são razoáveis ​​e bastante compatíveis.

Michael R. Chernick
fonte
2
Você comunicará melhor sua resposta quando a reler quanto a erros (em pontuação, gramática, tipografia e ortografia) e usará uma formatação eficaz. Consulte a página de ajuda do Markdown .
whuber
A visão mais clássica é que você não conseguiu encontrar significância estatística com seu primeiro teste, portanto, não deve relatar (em uma publicação profissional) mais testes como indicações estatisticamente significativas das diferenças entre os grupos. Fazer isso é usar um alfa diferente de 0,05. Isso é particularmente problemático (do ponto de vista clássico) porque você não escolheu o alfa mais alto antes de realizar o teste; portanto, seu alfa é desconhecido. Claro que, quando você tenta entender seus dados, para guiar seu próprio futuro programa de pesquisa, você pode tomar nota da diferença entre os grupos 1 e 2.
Joel W.
@JoelW. Você está tentando me dizer que 0,05091 é realmente diferente de 0,05? De qualquer forma, meu argumento não é como relatar as conclusões, mas dizer que os dois testes não entram em conflito. Concordo que a forma como você analisa os dados deve ser especificada com antecedência antes de analisá-los.
Michael R. Chernick
1
@whuber Desculpe por não editar a postagem anteriormente. Espero que pareça muito melhor agora.
Michael R. Chernick
@JoelW Sua visão 'mais clássica' é na verdade a abordagem de 'comportamento indutivo' de Neyman à inferência. É relevante para um pequeno subconjunto dos usos das estatísticas em apoio à inferência. É lamentável que seja apresentado tantas vezes como clássico.
Michael Lew
4

Os resultados do teste U de Kruskal-Wallis e Mann-Whitney podem diferir porque

  • As classificações usadas para o teste U de Mann-Whitney não são as usadas pelo teste de Kruskal-Wallis; e
  • Os testes de soma de classificação não usam a variância combinada implícita na hipótese nula de Kruskal-Wallis.

Portanto, não é recomendável usar o teste U de Mann-whitney como um teste post hoc após o teste de Kruskal-Wallis.

Outros testes, como o teste de Dunn (comumente usado), os testes de Conover-Iman e Dwass-Steel-Citchlow-Fligner, podem ser usados ​​como teste post-hoc para o teste de kruskal-wallis.

Dr Nisha Arora
fonte
3

Isso é uma resposta ao @vinesh, além de examinar o princípio geral da pergunta original.

Existem realmente duas questões aqui com várias comparações: à medida que aumentamos o número de comparações feitas, temos mais informações que facilitam a visualização de diferenças reais, mas o aumento do número de comparações também facilita a visualização de diferenças que não existem (falsos positivos, dragagem de dados, tortura dos dados até que confesse).

Pense em uma turma com 100 alunos, cada um deles recebe uma moeda justa e é instruído a jogar a moeda 10 vezes e usar os resultados para testar a hipótese nula de que a proporção de cabeças é de 50%. Esperamos que os valores de p variem entre 0 e 1 e, por acaso, esperamos ver cerca de 5 dos alunos obtendo valores de p inferiores a 0,05. De fato, ficaríamos muito surpresos se nenhum deles obtivesse um valor p menor que 0,05 (menor que 1% de chance disso acontecer). Se apenas olharmos para os poucos valores significativos e ignorarmos todos os outros, concluiremos falsamente que as moedas são tendenciosas, mas se usarmos uma técnica que leva em conta as múltiplas comparações, provavelmente ainda julgaremos corretamente que as moedas são justas (ou pelo menos deixar de rejeitar que são justos).

Por outro lado, considere um caso semelhante em que temos 10 alunos lançando um dado e determinando se o valor está no conjunto {1,2,3} ou no conjunto {4,5,6}, cada um dos quais terá 50% dê uma chance a cada jogada se o dado for justo (mas pode ser diferente se o dado for manipulado). Todos os 10 alunos calculam valores p (nulo é 50%) e obtêm valores entre 0,06 e 0,25. Agora, neste caso, nenhum deles atingiu o limite mágico de 5%, portanto, olhar para os resultados de qualquer aluno individualmente não resultará em uma declaração não justa, mas todos os valores de p são menores que 0,5, se todos os dados forem justos então os valores de p devem ser distribuídos uniformemente e têm 50% de chance de estar acima de 0,5. A chance de obter 10 valores de p independentes, todos inferiores a 0,5, quando os nulos são verdadeiros, é menor que a mágica 0,05 e isso sugere que os dados são tendenciosos,

Agora, o lançamento de moedas e a rolagem de matrizes são um pouco artificial, então um exemplo diferente: eu tenho uma nova droga que quero testar. Meu orçamento me permite testar a droga em 1.000 indivíduos (essa será uma comparação emparelhada, com cada sujeito sendo seu próprio controle). Estou considerando dois modelos de estudo diferentes; no primeiro, recruto 1.000 indivíduos para o estudo e relatam um único valor p. No segundo desenho, recruto 1.000 sujeitos, mas os divido em 100 grupos de 10 cada, faço o estudo em cada um dos 100 grupos de 10 e calculo um valor p para cada grupo (100 valores totais p). Pense nas possíveis diferenças entre as 2 metodologias e como as conclusões podem diferir. Uma abordagem objetiva exigiria que ambos os modelos de estudo levassem à mesma conclusão (considerando os mesmos 1.000 pacientes e todo o resto é o mesmo).

@mljrg, por que você escolheu comparar g1 e g2? Se essa era uma questão de interesse antes de coletar qualquer dado, o valor p de MW é razoável e significativo; no entanto, se você fez o teste de KW, olhou para ver quais 2 grupos eram os mais diferentes e fez o teste de MW apenas naqueles que parecia o mais diferente, as suposições para o teste de MW foram violadas e o valor de p de MW não faz sentido e o valor de p de KW é o único com significado potencial.

Greg Snow
fonte