Digamos que temos os seguintes dados:
set.seed(123)
data <- data.frame(x = c(rnorm(50, 1, 1), rnorm(50, 5, 2)),
y = c(rep('A', 50), rep('B', 50)))
Qual produz o seguinte boxplot ( boxplot(data$x ~ data$y)
):
Agora, digamos que eu queira testar se as duas amostras têm os mesmos parâmetros de localização (mediana e / ou média). No meu caso real, os dados claramente não são normais , então decidi executar o teste de Wilcoxon-Mann-Whitney, assim:
wilcox.test(data$x ~ data$y)
No entanto, eu gostaria que a hipótese alternativa fosse que data$y
o "segundo" fator de B venha de uma distribuição com parâmetros de posição mais altos. Eu tentei definir o alternative
parâmetro como "maior" e "menor", mas aparentemente as hipóteses alternativas não são o que estou procurando. Por exemplo, alternative = "greater"
me diz "hipótese alternativa: a verdadeira mudança de local é maior que 0"; alternative = "less"
diz-me "hipótese alternativa: a verdadeira mudança de local é menor que 0".
Como posso ajustar a wilcox.test()
função para ter a hipótese alternativa que eu quero (B vem de uma distribuição com parâmetros de posição mais altos que A)? Ou devo apenas usar outro teste?
fonte
rnorm()
, portanto eles devem ser normais . Eu me pergunto se você está confuso sobre a natureza da suposição de normalidade; pode ajudá-lo a ler este tópico: E se os resíduos forem normalmente distribuídos, mas y não estiver .Respostas:
Tecnicamente, a categoria de referência e a direção do teste dependem da maneira como a variável fator é codificada. Com seus dados de brinquedo:
Observe que a estatística W é a mesma nos dois casos, mas o teste usa caudas opostas à sua distribuição amostral. Agora vamos ver a variável fator:
Podemos recodificá-lo para tornar "B" o primeiro nível:
Agora temos:
Observe que não alteramos os dados eles mesmos , da mesma maneira que a variável categórica é codificada "por baixo do capô":
Mas as instruções do teste agora estão invertidas:
A estatística W é diferente, mas o valor p é o mesmo que para o
alternative="less"
teste com as categorias na ordem original. Com os dados originais, ele pode ser interpretado como “a mudança de local de B para A é menor que 0” e com os dados recodificados se torna “a mudança de local de A para B é maior que 0”, mas essa é realmente a mesma hipótese (mas veja os comentários de Glen_b à pergunta para a interpretação correta).No seu caso, parece que o teste que você deseja é
alternative="less"
(ou, equivalentemente,alternative="greater"
com os dados recodificados). Isso ajuda?fonte